Deepfake

Inhaltsverzeichnis

1 Deepfake
- 1.1 Fälschung von Gesichtern
- 1.2 Fälschung von Stimmen
- 1.3 Fälschung von Texten
- 1.4 Mögliche Bedrohungsszenarien
- 1.5 Detektion
  - 1.5.1 Medienforensisch
  - 1.5.2 Automatisierte Detektion
    - 1.5.2.1 Sichtbare Übergänge
    - 1.5.2.2 Scharfe Konturen verwaschen
    - 1.5.2.3 Metallischer Sound
    - 1.5.2.4 Falsche Aussprache
    - 1.5.2.5 Falsche Sprechweise
    - 1.5.2.6 Unnatürliche Geräusche
    - 1.5.2.7 Hohe Verzögerung

Als Deepfakes werden realistisch wirkende Medieninhalte (bspw. Foto,Audio, Video) bezeichnet, die mit Hilfe von neuronalen Netzen (Teilgebiet der künstlichen Intelligenz) verfälscht worden sind. Dazu nutzen Deepfakes Methoden des maschinellen Lernens, um Fälschungen weitgehend autonom zu erzeugen.

Fälschung von Gesichtern

Zur Manipulation von Gesichtern in Videos wurden in den letzten Jahren mehrere KI-basierte Verfahren entwickelt. Diese verfolgen entweder das Ziel Gesichter in einem Video zu tauschen („Face Swapping“), die Mimik/ Kopfbewegungen einer Person in einem Video nach Wunsch zu kontrollieren („Face Reenactment“), oder neue (Pseudo-)Identitäten zu synthetisieren.

Fälschung von Stimmen

Für die Erstellung von manipulierten Stimmen werden hauptsächlich „Text-to-Speech (TTS)“- und „Voice Conversion (VC)“- verwendet.

Fälschung von Texten

Verfahren zur Generierung von Texten, welche auf tiefen neuronalen Netzen basieren, schaffen es durch neue KI-Modelle, große Textdatenbanken und eine hohe Rechenleistung, lange und zusammenhängende Texte zu schreiben. Bei diesen kann auf den ersten Blick nicht unterschieden werden, ob sie von einem Menschen oder von einer Maschine geschrieben wurden. Meist sind nur wenige einleitende Wörter notwendig, aus denen das Modell eine mögliche, plausible Fortsetzung des Texts generiert. Damit können Nachrichten verfasst, Blog-Einträge erzeugt, oder auch Chat-Antworten generiert werden.

Mögliche Bedrohungsszenarien

Mittels der beschriebenen Verfahren ist es heute auch teilweise für technisch versierte Laien möglich, mediale Identitäten zu manipulieren, wodurch sich zahlreiche Bedrohungsszenarien ergeben:Überwindung biometrischer Systeme: Da es mittels Deepfake-Verfahren möglich ist, mediale Inhalte mit den Charakteristika einer Zielperson zu erstellen und diese Verfahren teilweise bereits in Echtzeit lauffähig sind, stellen sie eine hohe Gefahr für biometrische Systeme dar. Insbesondere bei Fernidentifikationsverfahren (z.B. der Sprechererkennung über das Telefon oder der Videoidentifikation) scheinen solche Angriffe erfolgversprechend, da ein potentieller Verteidiger lediglich das Ausgangssignal erhält. Jedoch hat er keine Kontrolle über die Aufnahmesensorik oder die am aufgenommenen Material durchgeführten Änderungen.Social Engineering: Deepfake-Verfahren können außerdem dazu verwendet werden, gezielte Phishing-Angriffe („Spear-Phishing“) durchzuführen, um Informationen und Daten zu gewinnen.Auch kann ein Angreifer diese Technologie zur Durchführung von Betrug und zur Abschöpfung finanzieller Mittel nutzen. Beispielsweise könnte er eine Person mit der Stimme von deren Führungskraft anrufen, um eine Geldtransaktion auszulösen („CEO-Fraud“).Desinformationskampagnen: Mittels Deepfake-Verfahren ist es potentiell möglich, glaubwürdige Desinformationskampagnen durchzuführen, indem manipulierte Medieninhalte von Schlüsselpersonen erzeugt und verbreitet werden.Verleumdung: Durch die Möglichkeit Medieninhalte zu generieren, die Personen beliebige Aussagen treffen lassen und sie in beliebigen Situationen darstellen, kann der Ruf einer Person durch die Verbreitung von Unwahrheiten nachhaltig geschädigt werden.

Detektion

Gegenmaßnahmen aus dem Bereich der Detektion zielen darauf ab, mittels Deepfake-Verfahren manipulierte Daten als solche zu erkennen.

Medienforensisch

Mittels Methoden aus der Medienforensik ist es möglich, Artefakte zu detektieren, welche bei der Verwendung von Manipulationsmethoden auftreten. Hiermit ist es für Expertinnen und Experten möglich, Fälschungen nachvollziehbar zu erkennen.

Automatisierte Detektion

In der Forschungsliteratur wurden in den letzten Jahren zahlreiche Methoden zur automatisierten Detektion von manipulierten Daten veröffentlicht. Diese Verfahren basieren in der Regel auf Techniken aus dem Gebiet der künstlichen Intelligenz, insbesondere den tiefen neuronalen Netzen. Aufgrund dessen müssen diese Verfahren anhand großer Datenmengen trainiert werden. Nach der Trainingsphase kann das Modell dazu verwendet werden, für ein Datenbeispiel (zum Beispiel ein Video) zu klassifizieren, ob dieses manipuliert wurde oder nicht.

Sichtbare Übergänge

Bei einem Face-Swapping-Verfahren wird ein Gesicht der Zielperson in den Kopf einer anderen Person eingesetzt. Dadurch kann es zu sichtbaren Artefakten an der Naht rund um das Gesichts kommen. Ebenso ist es möglich, dass die Hautfarbe und -textur an diesem Übergang wechselt oder dass sich teilweise das Ursprungsgesicht in manchen Frames am Gesichtsrand durch doppelte Augenbrauen bemerkbar macht.

Scharfe Konturen verwaschen

Häufig kommt es noch vor, dass Face-Swapping-Verfahren nicht richtig lernen, scharfe Konturen, wie sie in den Zähnen oder im Auge vorkommen, zu erzeugen. Bei genauem Hinsehen wirken diese auffällig verwaschen.Begrenzte Mimik, unstimmige Belichtung: Auf Grund einer beschränkten Datenlage kann es dazu kommen, dass ein Modell nur beschränkt fähig ist manche Gesichtsausdrücke oder Beleuchtungssituationen korrekt darzustellen. Häufig ist die Profilansicht eines Gesichts unzureichend erlernt, sodass ein starkes Drehen des Kopfes zu Bildfehlern führen kann, bei welchen zum Beispiel das Gesicht verwaschener wird.

Metallischer Sound

Zahlreiche Verfahren, erzeugen ein Audio-Signal, das vom menschlichen Gehör als „metallisch“ wahrgenommen wird.

Falsche Aussprache

Häufig können TTS-Verfahren nicht alle Wörter korrekt aussprechen. Dies kann beispielsweise passieren, wenn ein TTS-Verfahren für die deutsche Sprache trainiert wurde, aber ein englisches Wort ausgesprochen werden soll.Monotone Sprachausgabe: Insbesondere wenn die Trainingsdaten für ein TTS-System nicht ideal sind, kann das erzeugte Audio-Signal sehr monoton hinsichtlich der Betonung der Wörter sein.

Falsche Sprechweise

Meist sind Fälschungsverfahren vergleichsweise gut dafür geeignet, die Klangfarbe einer Stimme zu fälschen, haben jedoch häufig Probleme damit, die spezifischen Charakteristika der Stimme zu fälschen, sodass beispielsweise Akzente oder Betonungen von Wörtern nicht denen des Zielsprechers/ der Zielsprecherin entsprechen.

Unnatürliche Geräusche

Sofern ein Fälschungsverfahren Eingangsdaten erhält, die stark von den beim Training verwendeten abweichen, kann das Verfahren unnatürliche Geräusche erzeugen. Dies kann beispielsweise ein zu langer Text bei einem Text-to-Speech-Verfahren oder Stille bei einem Voice-Conversion-Verfahren sein.

Hohe Verzögerung

Die meisten Verfahren zur Erzeugung von synthetischen Stimmen müssen zunächst einen Teil des zu erzeugenden semantischen Inhalts als Eingangsdaten empfangen, um ein qualitativ hochwertiges Ergebnis zu erzeugen. Dies führt dazu, dass qualitativ hochwertige Fälschungen in vielen Fällen mit einer gewissen zeitlichen Verzögerung einhergehen, da dieser semantische Inhalt zunächst ausgesprochen und erfasst werden muss, bevor er von einem VC/ TTS Verfahren verarbeitet werden kann.

Um die Fähigkeit, manipulierte Audio-Daten zu erkennen, zu trainieren, kann beispielsweise die von Fraunhofer AISEC entwickelte Anwendung verwendet werden.

Quellen:

FAQs

Is watching deepfake illegal? ›

Watching deepfakes is not illegal in itself, except in cases where the content involves unlawful material, such as child p*rnography. Existing legislation primarily targets the creation and distribution of deepfakes, especially when these actions involve non-consensual p*rnography.

Get More Info Here ›

Is deepfakes safe? ›

A “deepfake” is fabricated hyper-realistic digital media, including video, image, and audio content. Not only has this technology created confusion, skepticism, and the spread of misinformation, deepfakes also pose a threat to privacy and security.

Keep Reading ›

Can you sue for deepfakes? ›

Georgia, Hawaii, Texas and Virginia have laws on the books that criminalize nonconsensual deepfake p*rn. California and Illinois have given victims the right to sue those who create images using their likenesses. Minnesota and New York do both. Minnesota's law also targets using deepfakes in politics.

Find Out More ›

How to detect deepfake photos? ›

For images and video files, deepfakes can still often be identified by closely examining participants' facial expressions and body movements. In many cases, there are inconsistencies within a person's human likeness that AI cannot overcome.

Tell Me More ›

Is deepfake illegal in Texas? ›

What are Possible Punishments for People Accused of Deepfakes in Texas? Political Deepfakes (TXSB 751): Class A misdemeanor, punishable by up to a year in jail and fines up to $4,000.

Are deepfakes illegal in Florida? ›

They were charged with third-degree felonies under a 2022 Florida law that criminalizes the dissemination of deepfake sexually explicit images without the victim's consent.

Read On ›

Can deepfakes be tracked? ›

The database includes descriptors for each deepfake, such as the URL and how much it was seen or shared on social media. It also lists the original source, the sharer, the person or group that the deepfake was targeting, and theoretical indicators.

Discover More ›

How to fight against deepfakes? ›

To combat such abuses, technologies can be used to detect deepfakes or enable authentication of genuine media. Detection technologies aim to identify fake media without needing to compare it to the original, unaltered media. These technologies typically use a form of AI known as machine learning.

Keep Reading ›

What is the most common deepfake? ›

A common example of a deepfake video is 'face swap' in which the face of the victim is placed on a different body. This could create a scene which is embarrassing or even illegal. Another deepfake is known as 'face puppetry' in which the victim's lip movements are manipulated to literally put words into their mouths.

Discover More Details ›

Are deepfakes identity theft? ›

By leveraging artificial intelligence, deepfakes enable fraudsters to clone your face, voice, and mannerisms to steal your identity.

View Details ›

Why are deepfakes banned? ›

Existing rules in the UK and some US states already ban the creation and/or dissemination of deepfakes. The FTC would make it illegal for AI platforms to create content that impersonates people and would allow the agency to force scammers to return the money they made from such scams.