Eine kürzlich von Yann LeCun, dem Chef-Wissenschaftsoffizier für KI bei Meta, geleitete Studie zeigt, wie künstliche Intelligenz durch das Anschauen von Videos ein grundlegendes Verständnis der Physik entwickeln kann. Die von Meta FAIR, der Universität Paris und EHESS durchgeführte Studie zeigt, dass KI-Systeme intuitives physikalisches Wissen durch selbstüberwachtes Lernen erwerben können, ohne vorher festgelegte Regeln zu benötigen.

QQ_1739931962266.png

Das Forschungsteam verwendete eine neue Methode namens Video Joint Embedding Predictive Architecture (V-JEPA). Im Gegensatz zu generativen KI-Modellen wie OpenAIs Sora ähnelt die Funktionsweise von V-JEPA eher der Informationsverarbeitung des menschlichen Gehirns. V-JEPA zielt nicht auf die perfekte Pixelvorhersage ab, sondern konzentriert sich auf die Vorhersage in einem abstrakten Repräsentationsraum. Auf diese Weise kann das KI-System grundlegende physikalische Konzepte erlernen.

Die Studie verwendete die aus der Entwicklungspsychologie stammende Methode der „Erwartungsverletzung“, die ursprünglich zur Untersuchung des physikalischen Verständnisses von Säuglingen eingesetzt wurde. Den KI-Systemen wurden zwei ähnliche Szenarien gezeigt – eines physikalisch möglich, das andere physikalisch unmöglich (z. B. ein Ball geht durch eine Wand). Durch die Messung der Reaktion auf diese physikalischen Verstöße konnte das physikalische Verständnis der KI bewertet werden.

V-JEPA wurde an drei Datensätzen getestet: IntPhys (grundlegende physikalische Konzepte), GRASP (komplexe Interaktionen) und InfLevel (reale Umgebungen). Die Ergebnisse zeigten, dass V-JEPA besonders gut in Bezug auf Objektpermanenz, Kontinuität und Formkonstanz abschnitt, während große multimodale Sprachmodelle wie Gemini1.5Pro und Qwen2-VL-72B Ergebnisse erzielten, die kaum besser als zufällige Vermutungen waren.

Die Effizienz des Lernprozesses von V-JEPA ist ebenfalls bemerkenswert. Das System benötigte nur 128 Stunden Videomaterial, um grundlegende physikalische Konzepte zu erlernen. Sogar ein kleines Modell mit nur 115 Millionen Parametern zeigte starke Ergebnisse. Die Studie zeigt, dass V-JEPA Bewegungsmuster effektiv erkennen und physikalisch unplausible Ereignisse mit hoher Genauigkeit identifizieren kann, was die Grundlage für ein zukünftiges, wirklich weltverstehendes KI-System legt.

Diese Forschung stellt eine grundlegende Annahme in vielen KI-Studien in Frage: die Notwendigkeit von vordefiniertem „Kernwissen“, um physikalische Gesetze zu verstehen. Die Ergebnisse von V-JEPA zeigen, dass Beobachtungslernen KI dabei helfen kann, dieses Wissen zu erwerben – ähnlich wie Säuglinge, Primaten oder Jungvögel Physik verstehen.

Die Forschung entspricht Metas langfristigem Forschungsziel für die JEPA-Architektur: die Erstellung umfassender Weltmodelle, die es autonomen KI-Systemen ermöglichen, ihre Umgebung tiefergehend zu verstehen.

Wichtigste Punkte:

🧠 Die Studie zeigt, dass KI durch das Anschauen von Videos physikalisches Wissen erwirbt, ohne vorher festgelegte Regeln zu benötigen.

📊 V-JEPA übertrifft große Sprachmodelle im Verständnis von Physik und zeigt eine stärkere Lernfähigkeit.

🌍 Meta treibt eine neue Richtung in der KI-Entwicklung voran, mit dem Ziel, umfassendere Modelle zum Verständnis der Umgebung zu schaffen.