Können heutige KI-Modelle wirklich wie Menschen erinnern, denken, planen und folgern? Einige KI-Labore erwecken den Eindruck, dass wir „menschenähnlicher KI“ nahe sind, doch Yann LeCun, Meta's Chef-KI-Wissenschaftler, dämpft die Erwartungen. Er glaubt, dass wir noch zehn Jahre brauchen, um dieses Ziel zu erreichen, und der Schlüssel dazu liegt in „Weltmodellen“.

Anfang des Jahres stellte OpenAI eine neue Funktion vor, die behauptet, dass ChatGPT sich an Unterhaltungen mit Nutzern „erinnern“ kann. Die neueste Modellgeneration zeigt beim Generieren von Ausgaben den Begriff „Denken“ an und behauptet sogar, diese Modelle könnten „komplexes Schließen“ durchführen.

Roboter Künstliche Intelligenz KI (3)

Bildquelle: Das Bild wurde von KI generiert, Bildrechte: Midjourney

Es klingt so, als stünden wir kurz vor dem Zeitalter der AGI (Allgemeine Künstliche Intelligenz). Doch auf einem kürzlich abgehaltenen Hudson-Forum widerlegte LeCun die optimistischen Stimmen, wie die von Elon Musk, Gründer von xAI, und Shane Legg, Mitbegründer von Google DeepMind, die glauben, dass menschenähnliche KI unmittelbar bevorsteht.

LeCun betonte: „Wir brauchen Maschinen, die die Welt verstehen; Maschinen mit Gedächtnis, Intuition, gesundem Menschenverstand, die wie Menschen denken und planen können.“ Er unterstrich, dass aktuelle KI-Systeme, trotz der häufigen Behauptungen der enthusiastischsten Befürworter der KI-Entwicklung, noch lange nicht dieses Niveau erreicht haben. Er sagte sogar, dass wirklich menschenähnliche KI „Jahre bis Jahrzehnte“ dauern könnte.

Wo liegt also das Problem? Ganz einfach: Heutige große Sprachmodelle (LLMs) funktionieren nur durch die Vorhersage des nächsten Wortes (normalerweise einige Buchstaben oder ein kurzes Wort), während aktuelle Bild- oder Videomodelle den nächsten Pixel vorhersagen. Das heißt, Sprachmodelle können nur eindimensional vorhersagen, während Bild-/Videomodelle zweidimensional vorhersagen. Obwohl diese Modelle in ihren jeweiligen Bereichen ziemlich gut abschneiden, verstehen sie die Komplexität der dreidimensionalen Welt nicht.

Aus diesem Grund können moderne KI-Systeme die meisten einfachen Aufgaben, die Menschen problemlos bewältigen, nicht erledigen. LeCun erwähnte, dass Menschen im Alter von zehn Jahren lernen können, den Tisch abzuräumen, und mit siebzehn Jahren Autofahren lernen können, sogar in wenigen Stunden. Aber selbst die fortschrittlichsten KI-Systeme können nach einem Training mit Tausenden oder Millionen von Stunden Daten keine zuverlässigen Aktionen in der realen Welt durchführen.

Um komplexere Aufgaben zu bewältigen, glaubt LeCun, dass wir dreidimensionale Modelle der Umgebung erstellen müssen, wobei der Kern in einer neuen KI-Architektur liegt – dem Weltmodell. Er erklärte: „Ein Weltmodell ist Ihr mentales Modell des Verhaltens der Welt.“ Sie können sich eine Reihe von Aktionen vorstellen, die Sie möglicherweise durchführen, und Ihr Weltmodell ermöglicht es Ihnen, die Auswirkungen dieser Aktionen auf die Welt vorherzusagen.

Stellen Sie sich zum Beispiel vor, Sie sehen ein unordentliches Schlafzimmer und möchten es aufräumen. Sie können ganz natürlich denken, dass das Aufsammeln aller Kleidungsstücke und das ordentliche Wegräumen das Problem lösen wird. Sie müssen nicht verschiedene Methoden ausprobieren und müssen auch nicht erst lernen, wie man ein Zimmer aufräumt. Ihr Gehirn beobachtet den dreidimensionalen Raum und erstellt direkt einen Aktionsplan, der das Ziel sofort erreichen kann. Dieser Aktionsplan ist die „Geheimwaffe“, die Weltmodelle versprechen.

Ein weiterer Vorteil von Weltmodellen ist, dass sie mit viel größeren Datenmengen umgehen können als LLMs. Dies macht ihre Rechenanforderungen komplexer, weshalb große Cloud-Anbieter um die Zusammenarbeit mit KI-Unternehmen wetteifern.

Derzeit verfolgen mehrere KI-Labore das große Konzept der Weltmodelle, und der Begriff ist schnell zu einem beliebten Thema für Risikokapital geworden. Eine Gruppe renommierter KI-Forscher, darunter „KI-Göttin“ Fei-Fei Li und Justin Johnson, hat gerade 230 Millionen US-Dollar für ihr Startup World Labs gesammelt. Sie und ihr Team sind überzeugt, dass Weltmodelle intelligentere KI-Systeme ermöglichen werden. OpenAI beschreibt seinen noch nicht veröffentlichten Sora-Videogenerator auch als Weltmodell, aber konkrete Details wurden noch nicht bekannt gegeben.

LeCun beschrieb in einem Aufsatz über „zielgerichtete KI“ aus dem Jahr 2022 die Idee, menschenähnliche KI mit Weltmodellen zu erstellen, obwohl er darauf hinwies, dass dieses Konzept bereits über 60 Jahre alt ist. Kurz gesagt, Weltmodelle werden mit einer grundlegenden Darstellung der Welt (z. B. ein Video eines schmutzigen Zimmers) und dem Gedächtnis trainiert. Dann prognostiziert das Modell anhand dieser Informationen die Veränderungen der Welt. Anschließend geben Sie dem Weltmodell Ziele vor, darunter den gewünschten zukünftigen Zustand der Welt (z. B. das Aufräumen des Zimmers), und legen einige „Sicherheitsmaßnahmen“ fest, um sicherzustellen, dass das Modell die Menschheit nicht gefährdet, um seine Ziele zu erreichen (z. B. „Bitte verletzen Sie mich nicht beim Aufräumen des Zimmers“). Schließlich findet das Weltmodell eine Reihe von Aktionen, um diese Ziele zu erreichen.

Metas langjähriges KI-Forschungslabor FAIR (Fundamental AI Research) forscht aktiv an zielgerichteter KI und Weltmodellen, so LeCun. FAIR hat früher KI-Forschung für Metas kommende Produkte betrieben, aber LeCun sagt, dass sich das Labor in den letzten Jahren auf langfristige KI-Forschung konzentriert hat und jetzt nicht einmal mehr LLMs verwendet.

Obwohl Weltmodelle ein faszinierendes Konzept sind, räumt LeCun ein, dass wir bei der Umsetzung dieser Systeme noch keine großen Fortschritte gemacht haben. Es gibt noch viele schwierige Probleme zu lösen, bevor wir das Ziel erreichen, sagte er: „Wenn man nicht von zehn Jahren spricht, könnte alles hier Jahre dauern, bis es funktioniert.“ Und sein Chef Mark Zuckerberg fragt immer wieder, wann dies erreicht werden kann.