L'équipe de Fei-Fei Li, professeur à l'université de Stanford et surnommée la "marraine de l'IA", a récemment publié une étude sur l'« intelligence spatiale » des grands modèles multimodaux. Cette étude révèle que ces modèles possèdent déjà des capacités préliminaires en matière de mémorisation et de rappel spatial, et montrent un potentiel de formation de modèles du monde partiels.
L'équipe de recherche a développé un outil d'évaluation des capacités d'intelligence visuo-spatiale : VSI-Bench. Il contient plus de 5 000 paires de questions-réponses de haute qualité basées sur 288 vidéos réelles. Les vidéos testées couvrent les espaces de vie, les lieux professionnels et les environnements industriels, et concernent plusieurs régions géographiques.
Les résultats de l'étude montrent que, bien que les performances globales des modèles multimodaux soient encore inférieures à celles des humains, ils atteignent ou se rapprochent du niveau humain pour certaines tâches. Par exemple, Gemini-1.5Pro excelle dans des tâches telles que l'estimation des distances absolues et de la taille des pièces, et certains modèles open source comme la série LLaVA ont également obtenu des résultats compétitifs.
L'étude souligne également que l'utilisation de cartes cognitives pour assister le raisonnement spatial améliore considérablement les performances des modèles dans les tâches spatiales, avec une augmentation de la précision de 10 points de pourcentage. Cela indique que la génération explicite de cartes cognitives contribue à surmonter les obstacles à la compréhension spatiale des modèles.
Fei-Fei Li a déclaré que l'intelligence spatiale est une capacité essentielle pour l'IA afin de comprendre le monde physique, et qu'elle est cruciale pour la réalisation d'une intelligence artificielle générale (IAG). Elle estime que l'intelligence spatiale deviendra le prochain axe de recherche de pointe dans le domaine de l'IA, et qu'elle pourrait même connaître des percées importantes dès 2025.
En septembre dernier, World Labs, l'entreprise fondée par Fei-Fei Li, a officiellement lancé ses activités, se concentrant sur le développement de modèles d'IA dotés d'une intelligence spatiale. Cette entreprise a reçu des investissements d'institutions de renom telles que Nvidia, a16z et Adobe, et sa valorisation dépasse actuellement le milliard de dollars.
Cette recherche et ses applications marquent une avancée significative de la technologie de l'IA, passant du traitement d'informations en deux dimensions à la perception de l'espace en trois dimensions. À l'avenir, elle devrait trouver de nombreuses applications dans les domaines de la navigation, de l'interaction robotique et de la réalité augmentée, ouvrant ainsi de nouvelles voies au développement de l'intelligence artificielle.