KI verwenden, um scheinbar perfekte Deep-Fake-Videos zu erkennen

Um eine tiefe Fälschung zu entdecken, suchten die Forscher nach Inkonsistenzen zwischen 渧isemes oder Mundformationen und 減honemes, den phonetischen Lauten. Bildnachweis: Stanford University

Vor einem Jahr half Maneesh Agrawala aus Stanford bei der Entwicklung einer Lippensynchronisationstechnologie, die es Videoeditoren ermöglichte, die Worte der Sprecher fast unmerklich zu ändern. Das Tool könnte nahtlos Wörter einfügen, die eine Person nie gesagt hat, selbst mitten im Satz, oder Wörter, die sie gesagt hat, eliminieren. Für das bloße Auge und sogar für viele computerbasierte Systeme würde nichts falsch aussehen.

Das Tool machte es viel einfacher, Störungen zu beheben, ohne ganze Szenen neu aufzunehmen, sowie Fernsehsendungen oder Filme für verschiedene Zielgruppen an verschiedenen Orten zuzuschneiden.

Aber die Technologie hat auch besorgniserregende neue Möglichkeiten für schwer zu erkennende Deep-Fake-Videos geschaffen, die ausdrücklich zu dem Zweck erstellt wurden, die Wahrheit zu verzerren. In einem kürzlich veröffentlichten Video der Republikaner wurde beispielsweise eine grobere Technik verwendet, um ein Interview mit Vizepräsident Joe Biden zu behandeln.

In diesem Sommer stellten Agrawala und Kollegen von Stanford und UC Berkeley einen KI-basierten Ansatz zur Erkennung der Lippensynchronisationstechnologie vor. Das neue Programm erkennt mehr als 80 Prozent der Fälschungen genau, indem es winzige Abweichungen zwischen den Geräuschen der Menschen und der Form ihres Mundes erkennt.

Aber Agrawala, der Direktor des Stanford Brown Institute for Media Innovation und der Forest Baskett Professor of Computer Science, der auch dem Stanford Institute of Human-Centered Artificial Intelligence angehört, warnt davor, dass es keine langfristige technische Lösung für Deep Fakes gibt.

Die eigentliche Aufgabe, sagt er, besteht darin, die Medienkompetenz zu erhöhen, um Menschen stärker zur Rechenschaft zu ziehen, wenn sie absichtlich Fehlinformationen produzieren und verbreiten.

„Da die Technologie zur Manipulation von Videos immer besser wird, wird die Fähigkeit der Technologie, Manipulationen zu erkennen, immer schlechter“, sagt er. “Wir müssen uns auf nicht-technische Wege konzentrieren, um Desinformation und Fehlinformationen zu erkennen und zu reduzieren.”

Das manipulierte Video von Biden etwa wurde nicht durch die Technik entlarvt, sondern weil die Person, die den Vizepräsidenten interviewt hatte, erkannte, dass seine eigene Frage geändert worden war.

Wie Deep Fakes funktionieren

Es gibt legitime Gründe für die Manipulation von Videos. Wer beispielsweise eine fiktive TV-Show, einen Film oder einen Werbespot produziert, kann Zeit und Geld sparen, indem er digitale Tools zur Bereinigung von Fehlern oder zur Optimierung von Skripten verwendet.

Das Problem tritt auf, wenn diese Tools absichtlich verwendet werden, um falsche Informationen zu verbreiten. Und viele der Techniken sind für normale Betrachter unsichtbar.

Viele Deep-Fake-Videos basieren auf Face-Swapping, bei dem das Gesicht einer Person buchstäblich über das Video einer anderen Person gelegt wird. Aber während Face-Swapping-Tools überzeugend sein können, sind sie relativ grob und hinterlassen normalerweise digitale oder visuelle Artefakte, die ein Computer erkennen kann.

Lippensynchronisationstechnologien hingegen sind subtiler und daher schwerer zu erkennen. Sie manipulieren einen viel kleineren Teil des Bildes und synthetisieren dann Lippenbewegungen, die genau der Art und Weise entsprechen, wie sich der Mund einer Person wirklich bewegt hätte, wenn er oder sie bestimmte Worte gesagt hätte. Mit genügend Samples des Bildes und der Stimme einer Person, sagt Agrawala, kann ein Deep-Fake-Produzent eine Person dazu bringen, alles zu “sagen”.

Fälschungen erkennen

Besorgt über den unethischen Einsatz solcher Technologien, arbeitete Agrawala mit Ohad Fried, einem Postdoktoranden in Stanford, an einem Erkennungstool; Hany Farid, Professor an der School of Information der UC Berkeley; und Shruti Agarwal, Doktorandin in Berkeley.

Die Grundidee besteht darin, nach Inkonsistenzen zwischen “Visemen” oder Mundformationen und “Phonemen”, den phonetischen Lauten, zu suchen. Insbesondere schauten die Forscher auf den Mund der Person, wenn sie die Laute “B”, “M” oder “P” machten, weil es fast unmöglich ist, diese Geräusche zu machen, ohne die Lippen fest zu schließen.

Die Forscher experimentierten zunächst mit einer rein manuellen Technik, bei der menschliche Beobachter Videoframes untersuchten. Das hat gut funktioniert, war aber in der Praxis arbeits- und zeitaufwendig.

Die Forscher testeten dann ein KI-basiertes neuronales Netzwerk, das viel schneller wäre, um dieselbe Analyse durchzuführen, nachdem sie es an Videos des ehemaligen Präsidenten Barack Obama trainiert hatten. Das neuronale Netzwerk entdeckte weit über 90 Prozent der Lippensynchronisationen, an denen Obama selbst beteiligt war, obwohl die Genauigkeit bei der Erkennung für andere Sprecher auf etwa 81 Prozent sank.

Ein echter Wahrheitstest

Die Forscher sagen, ihr Ansatz sei nur Teil eines “Katz-und-Maus”-Spiels. Wenn sich die Deep-Fake-Techniken verbessern, werden sie noch weniger Spuren hinterlassen.

Auf lange Sicht, sagt Agrawala, besteht die wahre Herausforderung weniger darin, Deep-Fake-Videos zu bekämpfen, als vielmehr in der Bekämpfung von Desinformation. Tatsächlich, stellt er fest, stammen die meisten Desinformationen aus der Verfälschung der Bedeutung von Dingen, die die Leute tatsächlich gesagt haben.

“Die Erkennung, ob ein Video manipuliert wurde, unterscheidet sich von der Erkennung, ob das Video Fehlinformationen oder Desinformationen enthält, und letzteres ist viel, viel schwieriger”, sagt Agrawala.

“Um Desinformation zu reduzieren, müssen wir die Medienkompetenz erhöhen und Systeme der Rechenschaftspflicht entwickeln”, sagt er. “Das könnte Gesetze gegen die absichtliche Produktion von Desinformation und Konsequenzen für deren Verletzung bedeuten, sowie Mechanismen, um die dadurch verursachten Schäden zu reparieren.”


Leave a Comment