Dans le domaine de l'intelligence artificielle, les technologies de vision 3D et de compréhension spatiale deviennent cruciales pour le développement de l'intelligence incarnée, de la navigation autonome et des applications de réalité virtuelle. En mars 2025, la société chinoise Qunhe Technology a annoncé lors de la conférence mondiale GTC2025 la mise en open source de son modèle linguistique de vision 3D, SpatialLM, suscitant un vif intérêt de la part du secteur.
Ce modèle, grâce à ses capacités de cognition spatiale puissantes et à son traitement de données peu coûteux, apporte des avancées révolutionnaires dans les domaines de la robotique, de la conception architecturale et de la réalité augmentée/virtuelle. AIbase, sur la base des dernières informations, a compilé et analysé en profondeur les points forts et l'impact de SpatialLM sur le secteur.
SpatialLM : des vidéos de téléphone portable à des scènes 3D physiquement correctes
SpatialLM est un grand modèle linguistique spécialement conçu pour la compréhension de l'espace tridimensionnel. Il est capable de générer rapidement des agencements de scènes 3D physiquement corrects à partir de vidéos prises avec un téléphone portable ou un appareil photo ordinaire. Contrairement aux méthodes traditionnelles qui reposent sur des lidars coûteux ou des équipements spécialisés, SpatialLM traite des données de nuages de points multisources (telles que des séquences vidéo monoculaires, des images RGBD ou des données de capteurs LiDAR), réduisant ainsi considérablement le coût d'acquisition des données. Le modèle peut identifier avec précision les éléments architecturaux de la scène (tels que les murs et les fenêtres) ainsi que les limites sémantiques des objets (tels que « canapé – longueur 1,8 m – à 0,5 m du mur »), et les restituer sous forme de script structuré, conférant ainsi aux machines une capacité de cognition spatiale similaire à celle des humains.
Sa technologie principale repose sur MASt3R-SLAM. Le processus consiste à décomposer la vidéo en images, à extraire les détails spatiaux et à générer un nuage de points 3D haute densité. Ensuite, un encodeur de nuage de points convertit les données en vecteurs de caractéristiques compacts, et un grand modèle linguistique (LLM) génère ensuite le code de la scène, garantissant que la disposition 3D résultante respecte les règles physiques (telles que « les meubles ne peuvent pas flotter » ou « la largeur du passage ≥ 0,8 m »). Cette architecture multimodale comble efficacement le fossé entre les données géométriques tridimensionnelles non structurées et les représentations structurées, offrant une compréhension sémantique de haut niveau pour l'analyse de scènes complexes.
Open source : abaisser le seuil de développement de l'intelligence incarnée
La version open source de SpatialLM proposée par Qunhe Technology comprend deux versions de modèles : SpatialLM-Llama-1B basé sur Llama et SpatialLM-Qwen-0.5B basé sur Qwen, avec des tailles de paramètres de 100 millions et 50 millions respectivement, ce qui les rend légers et efficaces par rapport aux LLM actuels qui comportent souvent des dizaines de milliards de paramètres. Les modèles sont accessibles aux développeurs du monde entier sur les plateformes Hugging Face, GitHub et Modu Community, et sont accompagnés de tutoriels détaillés et de jeux de données de test (tels que SpatialLM-Testset, comprenant 107 ensembles de données de nuages de points reconstruits à partir de vidéos RGB monoculaires). Les développeurs peuvent exécuter l'inférence via de simples scripts Python et utiliser des outils de visualisation (tels que Rerun) pour afficher les résultats de la disposition 3D.
L'initiative open source fournit un cadre d'entraînement de base pour le domaine de l'intelligence incarnée. Zhou Zihan, le scientifique en chef de Qunhe Technology, a déclaré : « SpatialLM vise à aider les entreprises de robotique qui ne possèdent pas les capacités de développement de modèles à améliorer rapidement leurs capacités de compréhension spatiale grâce au réglage fin. » En combinaison avec SpatialVerse, la plateforme d'intelligence spatiale précédemment open source de Qunhe, SpatialLM peut transformer les scènes réelles en environnements d'entraînement virtuels, générant des milliards de scènes de simulation, réduisant ainsi considérablement les coûts et les risques de formation des robots.
Applications étendues : de la robotique à la conception architecturale
Les scénarios d'application de SpatialLM sont extrêmement vastes. Dans le domaine de l'intelligence incarnée, il permet aux robots de naviguer, d'éviter les obstacles et d'exécuter des tâches dans des environnements complexes, fournissant un support technologique essentiel pour la maison intelligente et les robots de service. En architecture et en urbanisme, le modèle peut analyser les données de nuages de points des bâtiments, identifier automatiquement les structures telles que les murs et les fenêtres, et contribuer à une conception efficace. De plus, dans l'éducation et la formation, SpatialLM peut être utilisé pour développer des logiciels d'enseignement de modélisation 3D, aidant les étudiants à comprendre intuitivement les relations spatiales. Dans le développement de la réalité augmentée/virtuelle et des jeux, sa capacité de génération de scènes virtuelles offre des solutions à faible coût pour des expériences immersives.
La mise en open source de SpatialLM met non seulement en évidence l'accumulation technologique de Qunhe Technology dans le domaine de l'intelligence spatiale, mais favorise également la popularisation et l'innovation des technologies de vision 3D. Par rapport à des modèles tels que SceneScript de Meta, SpatialLM est plus polyvalent car il utilise des vidéos ordinaires comme entrée, et prévoit à l'avenir d'intégrer des fonctionnalités d'interaction en langage naturel et d'interaction avec les scènes, améliorant ainsi encore l'utilité du modèle.
Projet : https://huggingface.co/manycore-research/SpatialLM-Llama-1B