Professor Fei-Fei Li von der Stanford University, bekannt als „AI-Mutter“, und ihr Team haben kürzlich eine Studie über die „räumliche Intelligenz“ multimodaler großer Sprachmodelle veröffentlicht. Die Studie zeigt, dass diese Modelle bereits grundlegende Fähigkeiten im Speichern und Abrufen räumlicher Informationen besitzen und das Potenzial haben, partielle Weltmodelle zu bilden.

Das Forschungsteam entwickelte VSI-Bench, ein Werkzeug zur Bewertung der visuellen räumlichen Intelligenz. Es enthält über 5000 hochwertige Frage-Antwort-Paare, basierend auf 288 realen Videos. Die Testvideos umfassen Wohnräume, professionelle Umgebungen und industrielle Szenarien in verschiedenen geografischen Regionen.

QQ20241223-144615.png

Die Ergebnisse zeigen, dass die Gesamtleistung multimodaler Modelle zwar noch unter der menschlichen Leistung liegt, aber in einigen Aufgaben bereits das menschliche Niveau erreicht oder sich diesem annähert. Beispielsweise zeigt Gemini-1.5Pro hervorragende Ergebnisse bei der Schätzung absoluter Entfernungen und Raumgrößen. Auch einige Open-Source-Modelle wie die LLaVA-Serie erzielen wettbewerbsfähige Ergebnisse.

Die Studie weist darauf hin, dass die Verwendung von kognitiven Karten zur Unterstützung des räumlichen Schlussfolgerns die Leistung der Modelle bei räumlichen Aufgaben deutlich verbessert – um bis zu 10 Prozentpunkte. Dies deutet darauf hin, dass die explizite Generierung kognitiver Karten dazu beitragen kann, Engpässe im räumlichen Verständnis der Modelle zu überwinden.

Li Fei-Fei erklärt, dass räumliche Intelligenz eine Schlüsselkompetenz für KI-Systeme ist, um die physikalische Welt zu verstehen und für die Erreichung allgemeiner künstlicher Intelligenz (AGI) unerlässlich ist. Sie sieht die räumliche Intelligenz als den nächsten wichtigen Forschungsbereich im KI-Bereich und erwartet sogar bedeutende Durchbrüche im Jahr 2025.

Im September dieses Jahres gab Li Fei-Feis Unternehmen World Labs seinen offiziellen Start bekannt. Es konzentriert sich auf die Entwicklung von KI-Modellen mit räumlicher Intelligenz. Das Unternehmen hat bereits Investitionen von namhaften Unternehmen wie Nvidia, a16z und Adobe erhalten und wird derzeit auf über 1 Milliarde US-Dollar bewertet.

Diese Forschung und ihre Anwendung markieren einen wichtigen Fortschritt der KI-Technologie von der zweidimensionalen Informationsverarbeitung zur dreidimensionalen räumlichen Wahrnehmung. Zukünftige Anwendungen sind in Bereichen wie Navigation, Roboterinteraktion und Augmented Reality denkbar und eröffnen neue Wege für die Weiterentwicklung der künstlichen Intelligenz.