Eine kürzlich von Forschern des ByteDance-Instituts und der Tsinghua-Universität veröffentlichte Studie zeigt, dass aktuelle KI-Videogenerierungsmodelle wie OpenAIs Sora zwar beeindruckende visuelle Effekte erzeugen können, aber erhebliche Mängel im Verständnis grundlegender physikalischer Gesetze aufweisen. Diese Forschung hat eine breite Diskussion über die Fähigkeiten der KI bei der Simulation der Realität ausgelöst.
Das Forschungsteam testete KI-Videogenerierungsmodelle in drei verschiedenen Szenarien: Vorhersagen in bekannten Mustern, Vorhersagen in unbekannten Mustern und neue Kombinationen bekannter Elemente. Ihr Ziel war es zu untersuchen, ob diese Modelle tatsächlich physikalische Gesetze gelernt haben oder sich lediglich auf oberflächliche Merkmale aus dem Training verlassen.
Die Tests ergaben, dass diese KI-Modelle keine universell anwendbaren Regeln gelernt haben. Stattdessen verlassen sie sich bei der Videogenerierung hauptsächlich auf oberflächliche Merkmale wie Farbe, Größe, Geschwindigkeit und Form und folgen dabei einer strengen Prioritätenreihenfolge: Farbe zuerst, dann Größe, Geschwindigkeit und Form.
In vertrauten Szenarien zeigten die Modelle nahezu perfekte Ergebnisse, doch in unbekannten Situationen versagten sie. Ein Test in der Studie zeigte die Grenzen der KI-Modelle bei der Verarbeitung von Objektbewegungen. Beispielsweise zeigte das Modell, nachdem es mit schnell bewegten Bällen trainiert wurde, bei der Verwendung von langsam bewegten Bällen nach wenigen Frames einen plötzlichen Richtungswechsel des Balls. Dieses Phänomen ist in den zugehörigen Videos deutlich zu sehen.
Die Forscher weisen darauf hin, dass eine einfache Vergrößerung des Modells oder eine Erhöhung der Trainingsdaten das Problem nicht lösen kann. Größere Modelle erzielen zwar bessere Ergebnisse in bekannten Mustern und Kombinationen, verstehen aber dennoch keine grundlegenden physikalischen Gesetze oder können Szenarien außerhalb ihres Trainingsbereichs verarbeiten. Der Mitautor Kang Bingyi erwähnte: „Wenn die Datenabdeckung in einem bestimmten Szenario gut genug ist, kann sich vielleicht ein überangepasstes Weltmodell bilden.“ Ein solches Modell entspricht jedoch nicht der Definition eines echten Weltmodells, da ein echtes Weltmodell über die Trainingsdaten hinaus generalisieren können sollte.
Mitautor Bingyi Kang demonstrierte diese Einschränkung auf X und erklärte, dass das Modell, als es mit schnell bewegten Bällen von links nach rechts und zurück trainiert und dann mit langsam bewegten Bällen getestet wurde, den Ball nach nur wenigen Frames plötzlich die Richtung ändern ließ (siehe Video bei 1:55 Minuten).
Die Ergebnisse dieser Studie stellen OpenAIs Sora-Projekt vor Herausforderungen. OpenAI hatte angegeben, dass Sora durch kontinuierliche Erweiterung zu einem echten Weltmodell werden könnte und behauptete sogar, ein grundlegendes Verständnis von physikalischen Interaktionen und dreidimensionaler Geometrie zu haben. Die Forscher weisen jedoch darauf hin, dass allein eine einfache Skalierung nicht ausreicht, damit Videogenerierungsmodelle grundlegende physikalische Gesetze entdecken.
Auch Yann LeCun, Leiter der KI bei Meta, äußerte Zweifel und bezeichnete den Ansatz, die Welt durch die Generierung von Pixeln vorherzusagen, als „Zeitverschwendung und zum Scheitern verurteilt“. Trotzdem erwarten viele immer noch, dass OpenAI Sora Mitte Februar 2024 wie geplant veröffentlicht und das Potenzial der Videogenerierung demonstriert.
Wichtigste Punkte:
🌟 Die Studie zeigt, dass KI-Videogenerierungsmodelle erhebliche Mängel im Verständnis physikalischer Gesetze aufweisen und sich auf oberflächliche Merkmale der Trainingsdaten verlassen.
⚡ Eine Vergrößerung des Modells löst das Problem nicht; diese Modelle funktionieren in unbekannten Szenarien schlecht.
🎥 OpenAIs Sora-Projekt steht vor Herausforderungen; allein durch Skalierung lässt sich kein echtes Weltmodell erreichen.