The Real Deep Fakes:
Giffey antwortet Klitschko

Im Ukraine-Krieg werden falsche Videos zur Desinformation eingesetzt. Inzwischen sind sie leicht herzustellen, aber es gibt Beschränkungen. In einem Experiment zeigen wir es – mithilfe einer gefälschten Franziska Giffey.

Kennen Sie die Person in dem Video oben? Es gibt sie nicht. Es handelt sich um den muskulösen Körper von Vitali Klitschko, dem das Gesicht von Berlins Regierender Bürgermeisterin Franziska Giffey aufgelegt wurde. „Deep Fake“ nennt sich das. Mit der Technologie lassen sich Gesichter nicht nur ersetzen oder neu kombinieren. Man kann sie auch Dinge sagen lassen, die der Mensch nie gesagt hat.

Der Grund für das Video ist kein humoristischer. Während die falsche Giffey auf den Schultern des Riesen sofort als unecht erkennbar ist, werden solche Technologien im Ukraine-Krieg zur Desinformation genutzt. Ein NATO-Mitarbeiter bestätigte das dem Tagesspiegel auf Nachfrage. Deshalb hat das Tagesspiegel Innovation Lab den Entwicklungsstand von Deep Fakes ausprobiert. Weil manches an dieser Forschung recht trocken ist und es zum Testen nun mal ein Gesicht braucht, haben wir uns das von Franziska Giffey „ausgeliehen“. Könnte eine falsche Giffey dem falschen Klitschko antworten, der sie unlängst betrogen hat? Das Experiment zeigt, warum die virtuellen Gesichter die Zukunft der Kommunikation verändern werden.

Am 24. Juni 2022 war Franziska Giffey mit Vitali Klitschko verabredet, zum Videotelefonat. Noch ehe das Gespräch abgeschlossen war, teilte die Senatskanzlei mit, es seien Zweifel an der Identität des Gegenübers aufgekommen. Giffey hatte mit einer Fälschung gesprochen. Es habe sich möglicherweise um einen Deep Fake gehandelt, spekulierte die Senatskanzlei. Der Investigativ-Journalist Daniel Laufer argumentierte anhand von Screenshots aus dem Videocall jedoch schlüssig, dass es keiner war.

Kurz darauf bekannten sich die russischen Komiker Wowan und Lexus zu der Aktion. Den „Streich“ spielten sie wohl auch den Bürgermeistern von Wien, Madrid, Budapest und Warschau. Sie arbeiten nach eigener Aussage unabhängig, werden aber unter anderem von einer Gazprom-Tochterfirma bezahlt und fahren einen Kreml-nahen Humor. Auch sie bestreiten, Deep-Fake-Technologie eingesetzt zu haben. Es handelte sich wohl um einen Trick mit Schnipseln aus einem alten Interview. Trotzdem verlieh der Vorfall der Debatte um die Gefahr von Deep Fakes in der Politik neuen Schwung. Wenn schon eine einfache Fälschung solch einen Schaden anrichten kann, was könnten dann erst echte Deep Fakes ausrichten?

Im obigen Interview sagte Franziska Giffey dem RBB nach dem Gespräch mit dem falschen Klitschko, Deep Fakes seien ein Mittel der modernen Kriegsführung. Das Keanu-Reeves-Video von Giffey zu erzeugen war einfach. Es gibt bereits ein Modell, das auf das Gesicht des Schauspielers „trainiert“ ist. Es hat gelernt, wie sein Gesicht aussehen würde, wenn es etwas anderes sagen würde. Der Ansatz hat in den letzten drei Jahren die Massen erreicht. Apps wie iFace, Reface oder Faceover erlauben es Usern, ihr Gesicht mit denen von Stars zu verschmelzen. Sie basieren auf maschinellem Lernen. In Politik und Medien wird das oft als künstliche Intelligenz bezeichnet. Das ist falsch, da diese Modelle nicht intelligent sind, sondern nur tun, was man ihnen sagt – allerdings vergleichsweise selbstständig.

In unserem Beispiel haben wir keine App benutzt, sondern die Software Deep Face Lab. Sie ist derzeit die populärste frei verfügbare Programmierumgebung zur Erstellung falscher Gesichter. Wer Programmierkenntnisse hat, kann sie sich von der Plattform Github herunterladen.

Deep Tom Cruise

Besonders bekannt wurde sie durch DeepTomCruise, einem Tiktok-Kanal, auf dem ein User Tom Cruise imitiert und ihn absurde Dinge tun lässt.

Ton aktivieren

Was ist daran so deep?

Deep Face Lab nutzt maschinelles Lernen. Das Wort „deep“ kommt von neuronalen Netzen, sie sind eine Unterkategorie von maschinellem Lernen. Neuronale Netze betreiben sogenanntes Deep Learning. Ein neuronales Netz ist ein Programm, das versucht, eine Funktion des Gehirns nachzuempfinden: Lernen durch Versuch und Scheitern. Es tut das in vielen aufeinanderfolgenden Schichten. Die erste Schicht probiert möglicherweise aus, welche Farbe die wahrscheinlichste ist an der Stelle, wo der Mund ist, die nächste Schicht schaut, wie der Bereich neben dem Mund am wahrscheinlichsten aussieht und so weiter. Hat ein Modell besonders viele solcher Schichten, wird es als „deep“ bezeichnet, auf Deutsch „tief“.

Das Modell lernt, in Zahlen auszudrücken, was ein Gesicht ausmacht, beispielsweise Kopfhaltung, Ausdruck, Mund und Mimik. Heraus kommt ein neues Video, das aussieht wie das von einem echten Gesicht, allerdings künstlich generiert. Um das zu erreichen, hat das Programm in unserem Fall ein numerisches Modell von dem Gesicht Keanu Reeves gelernt, basierend auf zahlreichen Bildern aus Filmen. Dasselbe hat es für Franziska Giffey getan. Dann kann das Modell von Keanu Reeves auf das neue Gesicht übertragen werden. Das Modell sagt für jeden einzelnen Punkt in dem zweiten Gesicht, wie es aussehen müsste, wenn es das erste Gesicht wäre. In unserem Beispiel wurde das Gesicht nicht getauscht, sondern vermischt. Für das Modell sind das lediglich Zwischenvariablen.

Falsche Gesichter – für alle?

Die Benutzeroberfläche von Deep Face Lab macht es Usern leicht, das Programm zu benutzen, zumindest, wenn das Modell ein Gesicht bereits gelernt hat.

Die Funktion, ein Gesicht auszutauschen, gibt es in Deep Face Lab ebenfalls. Sie haben wir benutzt, um das Video am Beginn des Artikels zu generieren, das Franziska Giffeys Gesicht auf dem Körper von Vitali Klitschko zeigt. Das ist schwieriger. Denn im Gegenteil zu Keanu Reeves gibt es von Franziska Giffey keine vortrainierten Modelle. Das Programm muss lernen, ihr Gesicht in Zahlen zu übersetzen - und hinterher die Zahlen wieder in ein Gesicht zu übersetzen. Das braucht Rechenleistung und Zeit. Je mehr man von beidem hat, desto genauer kann das Modell vorhersagen, wie das Gesicht bei bestimmten Bewegungen, Wörtern und Lichtsituationen aussehen würde.

Das Video zeigt einen frühen Versuch, bei dem das Modell noch nicht lange trainiert worden war. Es fällt auf, dass es Probleme hat, weil das Originalvideo von Klitschko viele Lichtsituationen und Kopfhaltungen hat. Außerdem sind die Übergänge zwischen dem Ersatzgesicht und dem Original nicht fließend.

Um natürlich wirkende Gesichter zu berechnen, lässt sich in Deep Face Lab eine weitere Technologie des maschinellen Lernens zusätzlich nutzen: Generative Adversarial Networks (GAN). Die Methode gibt es seit 2014, inzwischen wird sie in zahlreichen Bereichen von Mode über Ingenieurswesen und medizinische Forschung bis hin zur Astronomie verwendet.

Simpel gesagt treten hier zwei neuronale Netzwerke gegeneinander an. Das erste versucht, das perfekte Modell von dem Gesicht zu errechnen. Das zweite versucht, Fehler darin zu finden. Lässt man diese Programme lange rechnen, gibt es nur noch wenige Fehler in dem künstlichen Gesicht. Denn das Modell hat gelernt, welche Gesten unnatürlich aussehen. Gerade deshalb gilt die Technologie bei Gesichtern als besonders gefährlich.

In unserem Fall sieht man aber auch die Grenzen: Wenn beide Gesichter sehr unterschiedliche Formen, Haare oder Proportionen haben, erkennt man den Fake sofort. Es ging in unserem Experiment auch nicht darum, dass man ihn für echt hält. Um eine gefälschte Person echt wirken zu lassen, würde man bei dieser Technologie eine ähnlich aussehende Person als Grundlage nutzen.

Der tiefe Abgrund der Deep Fakes

Viele der Programme, die Forschende zu Deep Fakes entwickelt haben, werden nicht veröffentlicht, weil das als ethisch fragwürdig gilt. Ivan Perov, der Programmierer hinter Deep Face Lab, war anderer Meinung. Er und seine Mitstreiter verteidigen das Projekt als notwendige Entwicklung, um solche Fakes besser erkennen zu können.

Bisher sieht es aber aus, als würden weitaus mehr Menschen die Software herunterladen, um damit Deep Fakes zu produzieren als um sie zu erkennen. Den Großteil machen Pornos aus, in denen die Gesichter der Darstellerinnen durch die von Stars ausgetauscht werden. Neben Hollywood-Filmstars finden sich dort Politikerinnen wie Angela Merkel oder Alice Weidel. Besonders viele Suchergebnisse liefert Annalena Baerbock.

Diese Beispiele zeigen eines der größten Missbrauchspotenziale. Denn diese Videos dienen offensichtlich der chauvinistischen Herabsetzung dieser Politikerinnen. Vergleichbare Fake-Videos von männlichen Politikern finden sich nicht. Und dieselbe Strategie wird offensichtlich von enttäuschten Macho-Programmierern gefahren. Sogenannter „Revenge Porn“, auf Deutsch Racheporno, erhielt durch Deep Fakes völlig neue Möglichkeiten. Immer wieder gab es Beispiele von Deep Fakes von Frauen, die aus Rache von ihren Exfreunden erzeugt worden waren – oder schlicht von menschenverachtenden Schulkameraden. Die Technologie wird auch benutzt, um Kinderpornografie zu erzeugen.

Der Algorithmus erkennt Mund und Augen und erfasst ihre Bewegungen. In einem Foto von Vitali Klitschko werden dann diese Gesichtsregionen erkannt und so verzerrt und bewegt, dass es wirkt, als habe er gesagt, was Franziska Giffey gesagt hat. Die Auflösung ist in unserem Beispiel recht schlecht. Vor allem sagt Klitschko den Satz von Franziska Giffey aber natürlich mit ihrer Stimme. Und genau das ist der Knackpunkt bei vielen Fakes.

Bei dieser Funktion von Facelab erkennt das Programm die Kopfhaltung und Gesichtszüge, die sich verändern müssen und überträgt sie auf ein anderes Gesicht.

Die Videobeispiele oben zeigen, wie einfach es ist, Gesichter auszutauschen oder fernzusteuern. Es wurde frei verfügbare Software genutzt und sie wurde auf normalen Computern oder kostenfreien Online-Plattformen ausgeführt. Außerdem haben wir das Modell von Giffey zwar einige Tage lang berechnen lassen. Tut man das allerdings mit stärkeren Computern oder für eine längere Zeit, wird das falsche Gesicht immer realistischer.

Das Problem mit der Stimme

Ton aktivieren

Um ein Video glaubhaft zu fälschen, müsste man aber auch die Stimme fälschen. Das ist etwas komplizierter. Es gibt dafür weniger gut verfügbare Software. Forschung dazu gibt es aber. Im Gegensatz zu Deep Fakes wurde dazu allerdings bislang nicht vieles als Software veröffentlicht. Möglich ist es aber, und die nützlichen Potenziale liegen auf der Hand. Beispielsweise könnten dadurch verstummte Menschen wieder mit ihrer eigenen Stimme sprechen.

Wie künstlich erzeugte Gesichter basieren auch solche Stimmenmodelle auf maschinellem Lernen. In unserem Beispiel hat das Modell gelernt, wie eine menschliche Stimme funktioniert und kann daher einigermaßen flüssig Wörter sagen. Dann wird ein Programm genutzt, das aus Text Stimme generiert, so ähnlich wie wir es von Siri oder Navigationsgeräten kennen. Letztendlich versucht das Programm, die künstliche Stimme so zu verzerren, dass sie wie die von Franziska Giffey klingt.

In unserem Beispiel sagt sie: „Es ist richtig gefährlich, Belege zu erfinden!“, ein Satz, der in der Plagiatsaffäre um Giffeys Doktorarbeit zitiert wurde. Tatsächlich ist das ein verkürztes Zitat von Plagiatsexperte Professor Gerhard Dannemann. Franziska Giffey hat das selbst nie gesagt. Ihre Stimme klingt hier aber robotisch und falsch und ist daher leicht als Fake zu erkennen. Für die Zukunft bleibt die ethische Frage: Wäre es denn legitim, wenn eine Stimme künstlich erzeugt wird, wenn die Person dem vorher zugestimmt hat? Wäre es beispielsweise in Ordnung, wenn Franziska Giffey selbst eine Rede schreiben würde und sie dann von einer künstlich generierten Stimme vorlesen ließe? Müsste man das dazusagen? Das könnte noch eine spannende Debatte werden.

Luke Skywalker sprach in The Mandalorian nicht selbst

Es gibt spezialisierte Firmen, die schon weiter sind. Ein berühmtes Ergebnis haben wahrscheinlich viele gehört. Für die Star-Wars-Serie The Mandalorian hat das ukrainische Startup Respeecher die Stimme des jungen Luke Skywalker nachgebaut. Sie fütterten dafür ein Modell mit vielen alten Audioaufnahmen von Mark Hamill, der den jungen Skywalker gespielt hatte. Inzwischen reichen anscheinend ein bis zwei Stunden Audiomaterial in guter Qualität, um einem Modell beizubringen, diese Stimme zu sprechen. Dasselbe ukrainische Startup will solche Stimmmodelle künftig benutzen, um Menschen mit Sprachbeeinträchtigungen zu helfen. Oder um Musiker ihre Songs in Sprachen singen zu lassen, die sie gar nicht sprechen können.

Mithilfe künstlicher Stimmen wurden aber auch schon Mitarbeiter dazu gebracht, im Auftrag des Geschäftsführers Unsummen auf ein Bankkonto zu überweisen.

Inzwischen reichen Fotos, um falsche Videos zu erzeugen

Während es bei Deep Face Lab sehr rechenaufwändig ist, Gesichter dazu zu bringen, etwas Falsches zu sagen, ist das sogenannte „First Order Model“ dazu in der Lage jegliches statisches Foto zu einem sprechenden Video zu machen.

Ton aktivieren

Wenngleich es einfach geworden ist, Deep Fakes zu erzeugen, braucht es Vorwissen und Zeit. Richtig überzeugende Fälschungen kommen erst mit viel Rechenleistung und viel manueller Bildauswahl heraus. Das ist eine hohe Zugangshürde.

Das ändert sich gerade aber rasant: Forschende von der University of Toronto haben 2020 ein Modell vorgestellt, das nur ein einziges Foto von einer Person braucht, um ein Video zu erzeugen. First Order Model nennen sie das in ihrem Paper. Man sucht ein Foto von einer berühmten Person heraus. Dann spricht man selbst etwas in die Kamera, was das Foto sagen soll. Damit steuert man das Foto fern. Und es sieht nun so aus, als habe es gesagt, was man selbst gerade eingesprochen hat.

Das Modell hat dazu allgemein gelernt, wie Gesichter sich bewegen, wenn sie sprechen. Während man Programmen wie DeepFaceLab aufwändig Videoschnipsel der Person einspeisen muss, die man verfälschen will, kann das neue Modell aus jedem statischen Foto berechnen, wie das Gesicht sich beim Sprechen bewegen würde. Und es fügt fehlende Bildteile ein, beispielsweise im Hintergrund des Kopfes, wenn er sich bewegt. Das führt zwar zu mehr Fehlern, aber gerade auf Social Media, wo oft kleine Videoausschnitte in niedriger Qualität geteilt werden, hat diese Technologie viel Schadenspotenzial. Weil das Modell so effizient rechnet, funktioniert es auf normalen Computern und sogar live. Mit so einem Ansatz wären also falsche Videotelefonate mit falschen Gesichtern tatsächlich möglich. Allerdings würden sie sehr wahrscheinlich auffallen.

Zuletzt erreichte ein Video von Wolodymyr Selenskyj große Aufmerksamkeit. In dem Deep Fake rief er die Ukrainer dazu auf, Ihre Waffen niederzulegen. Hacker platzierten das Video auf einer ukrainischen Nachrichtenwebseite. Hunderttausende sahen es. Obwohl das Video eine extrem schlechte Fälschung ist, hält es sich bis heute in pro-russischen Verschwörungserzählungen. Und es ist ein guter Beleg dafür, dass schlechte Fälschungen nicht allen sofort auffallen. Zu sehr sind viele die pixeligen und verruckelten Aufnahmen schlechter Videoübertragungen gewohnt.

Im Beispiel oben sagen Giffey, Klitschko, Putin und einer der Komiker, die für den Fake-Anruf bei Giffey verantwortlich waren, dasselbe: „Selbst Profis können das nicht unterscheiden, ob sie mit der echten Person sprechen oder mit einem Fake.“ Gesagt hat das auf diesen Bildern niemand von ihnen.