Da KI-generierte Bilder immer realistischer werden, fragen sich viele beim Anschauen von Videos unwillkürlich: Ist das wirklich echt gefilmt oder ein KI-Meisterwerk?

Kürzlich löste ein von „QuantumBit“ auf Bilibili veröffentlichtes Video zur Erkennung von KI-Videos mit Hilfe von KI eine hitzige Diskussion aus und erzielte innerhalb kürzester Zeit über 1,68 Millionen Aufrufe. Lassen Sie uns gemeinsam entdecken, wie KI KI-Videos auf Anhieb „erkennt“.

image.png

Das Video stellt einige Tricks zur manuellen Erkennung von KI-Videos vor. Achten Sie beispielsweise auf unnatürliche Bewegungen oder Gesichtsausdrücke von Personen und darauf, ob Stimme, Mundbewegung und Emotionen übereinstimmen. Bei der enormen Menge an Videos ist die manuelle Überprüfung jedoch kaum zu bewältigen. Hier kommt die KI ins Spiel.

Bei der Erkennung von KI-generierten Gesichtsaustausch-Videos hat die KI einen entscheidenden Vorteil. KI-basierte Gesichtsaustausch-Techniken fügen die synthetischen Teile meist Einzelbild für Einzelbild in das Originalvideo ein. Während das menschliche Auge vielleicht nur ein „irgendetwas stimmt nicht“-Gefühl hat, kann die KI diese „Spleißspuren“ präzise lokalisieren. Ähnlich wie jeder Mensch einzigartige Fingerabdrücke hat, lassen sich auch die Beleuchtung, Textur und andere Informationen verschiedener Videos nicht perfekt replizieren. Diese feinen Unterschiede sind der Schlüssel zur KI-Erkennung.

image.png

Bei vollständig KI-generierten Videos ist die Erkennung komplexer. Ein Forschungsteam hat drei Klassifikatoren trainiert, die auf Modellmerkmalen, Bewegungsmerkmalen und geometrischen monokularen Tiefenmerkmalen basieren. Am Beispiel von Sora-generierten Videos sind die instabile Anzahl von Personen und Tieren, ungewöhnliche Farb- und Schattenveränderungen bei der Objektbewegung sowie Perspektive und Proportionsfehler beim Kamera-Schwenk wichtige Indizien für die KI-Erkennung.

image.png

Besonders interessant ist eine neue Methode namens DIVID. Die Forscher stellten fest, dass die Ergebnisse der erneuten Generierung von KI- und echten Videos durch ein Diffusionsmodell stark unterschiedlich ausfallen. Die Pixel von KI-generierten Videos liegen oft näher am Durchschnittswert der Trainingsdaten, während Videos menschlicher Kreationen in verschiedenen Aspekten eine deutlichere Individualität aufweisen. Der auf dieser Eigenschaft basierende DIVID-Algorithmus erreicht bei der Erkennung von Sora-generierten Videos eine Genauigkeit von 93,7 %.

Das Aufkommen dieser KI-Erkennungsmethoden bietet uns zweifellos eine wirksame Waffe gegen die Verbreitung falscher Informationen. Sie sind wie scharfe Augen in der digitalen Welt und helfen uns, in der Informationsflut zwischen Wahrheit und Falschheit zu unterscheiden.