AI-generierte Videos werden immer realistischer und machen es für Menschen (und bestehende Erkennungssysteme) schwer, zwischen echten und gefälschten Videos zu unterscheiden. Um dieses Problem zu lösen, haben Forscher der Columbia University School of Engineering unter der Leitung von Professor Junfeng Yang für Informatik ein neues Werkzeug namens DIVID entwickelt, kurz für DIffusion-generated VIdeo Detector. DIVID ist eine Erweiterung von Raidar, das das Team Anfang des Jahres veröffentlicht hat. Raidar erkennt KI-generierte Texte, indem es den Text selbst analysiert, ohne auf die internen Arbeitsweisen großer Sprachmodelle zugreifen zu müssen.

image.png

DIVID verbessert frühere Methoden zur Erkennung generierter Videos und identifiziert effektiv Videos, die von älteren KI-Modellen wie Generative Adversarial Networks (GANs) erstellt wurden. GANs sind KI-Systeme mit zwei neuronalen Netzen: eines erstellt gefälschte Daten, das andere bewertet sie, um zwischen echt und falsch zu unterscheiden. Durch kontinuierliches Feedback verbessern sich beide Netze ständig und erzeugen so sehr realistische synthetische Videos. Aktuelle KI-Erkennungstools suchen nach auffälligen Merkmalen wie ungewöhnlichen Pixelanordnungen, unnatürlichen Bewegungen oder Inkonsistenzen zwischen Frames, die in echten Videos normalerweise nicht vorkommen.

image.png

Die neue Generation von KI-Videotools wie OpenAIs Sora, Runway Gen-2 und Pika verwendet Diffusionsmodelle, um Videos zu erstellen. Diffusionsmodelle sind eine KI-Technik, die Bilder und Videos erstellt, indem sie schrittweise zufälliges Rauschen in scharfe, realistische Bilder umwandeln. Bei Videos optimiert sie jede einzelne Frame und sorgt gleichzeitig für einen flüssigen Übergang, um qualitativ hochwertige, realistische Ergebnisse zu erzielen. Diese immer komplexere Entwicklung von KI-generierten Videos stellt eine große Herausforderung für die Überprüfung ihrer Authentizität dar.

Das Team von Bernadette Young verwendete eine Technik namens DIRE (DIffusion Reconstruction Error), um diffusionsgenerierte Bilder zu erkennen. DIRE ist ein Maß für die Diskrepanz zwischen einem Eingabebild und dem entsprechenden Ausgabebild, das von einem vortrainierten Diffusionsmodell rekonstruiert wurde.

Junfeng Yang, Co-Direktor des Software Systems Lab, erforscht seit langem die Erkennung von KI-generierten Texten und Videos. Anfang des Jahres veröffentlichten Junfeng Yang und seine Mitarbeiter mit Raidar eine Methode zur Erkennung von KI-generierten Texten, indem sie den Text selbst analysierten, ohne auf die internen Arbeitsweisen großer Sprachmodelle wie ChatGPT-4, Gemini oder Llama zugreifen zu müssen. Raidar verwendet Sprachmodelle, um einen gegebenen Text umzuformulieren oder zu modifizieren, und misst dann die Anzahl der Änderungen, die das System am gegebenen Text vorgenommen hat. Viele Änderungen bedeuten, dass der Text wahrscheinlich von einem Menschen geschrieben wurde, wenige Änderungen deuten darauf hin, dass der Text maschinell generiert sein könnte.

Junfeng Yang erklärt: „Die Erkenntnis von Raidar – dass eine KI die Ausgabe einer anderen KI oft als sehr hochwertig einschätzt und daher weniger Änderungen vornimmt – ist sehr wirkungsvoll und nicht auf Text beschränkt.“ Er sagt: „Da KI-generierte Videos immer realistischer werden, wollten wir die Erkenntnisse von Raidar nutzen, um ein Werkzeug zu schaffen, das KI-generierte Videos präzise erkennen kann.“

Die Forscher haben mit dem gleichen Konzept DIVID entwickelt. Diese neue Methode zur Erkennung generierter Videos kann Videos identifizieren, die von Diffusionsmodellen erstellt wurden. Die Forschungsarbeit wurde am 18. Juni 2024 auf der Computer Vision and Pattern Recognition Conference (CVPR) in Seattle veröffentlicht, zusammen mit dem Open-Source-Code und dem Datensatz.

论文地址:https://arxiv.org/abs/2406.09601

Wichtigste Punkte:

- Angesichts immer realistischerer KI-generierter Videos haben Forscher der Columbia University School of Engineering ein neues Werkzeug namens DIVID entwickelt, das KI-generierte Videos mit einer Genauigkeit von 93,7 % erkennen kann.

- DIVID ist eine Verbesserung gegenüber früheren Methoden zur Erkennung von KI-generierten Videos der neuen Generation. Es kann Videos erkennen, die von Diffusionsmodellen erstellt wurden, die schrittweise zufälliges Rauschen in qualitativ hochwertige, realistische Videobilder umwandeln.

- Die Forscher haben die Erkenntnisse von Raidar zur Erkennung von KI-generierten Texten auf Videos übertragen. Sie verwenden Sprachmodelle, um Texte oder Videos umzuformulieren oder zu modifizieren und messen dann die Anzahl der Änderungen, die das System am Text oder Video vorgenommen hat, um dessen Authentizität zu beurteilen.