En el campo de la inteligencia artificial, la visión 3D y la comprensión espacial se están convirtiendo en claves para impulsar aplicaciones como la inteligencia encarnada, la navegación autónoma y la realidad virtual. En marzo de 2025, la empresa china Qunhe Technology anunció en la conferencia mundial GTC2025 la liberación de código abierto de su modelo de lenguaje visual 3D de desarrollo propio, SpatialLM, generando un gran interés en la industria.
Este modelo, con su potente capacidad de cognición espacial y su procesamiento de datos de bajo costo, ha supuesto un avance revolucionario en áreas como el entrenamiento robótico, el diseño arquitectónico y la realidad aumentada/virtual (AR/VR). AIbase, basándose en la información más reciente, recopila y analiza en profundidad los aspectos más destacados de SpatialLM y su impacto en la industria.
SpatialLM: De vídeos de móvil a escenas 3D físicamente correctas
SpatialLM es un modelo de lenguaje grande diseñado específicamente para la comprensión del espacio tridimensional. Es capaz de generar rápidamente diseños de escenas 3D físicamente correctos a partir de vídeos grabados con un teléfono móvil o una cámara convencional. A diferencia de los métodos tradicionales que dependen de costosos sensores LIDAR o equipos especializados, SpatialLM procesa datos de nubes de puntos de múltiples fuentes (como secuencias de vídeo monoculares, imágenes RGBD o sensores LiDAR), reduciendo significativamente el coste de la adquisición de datos. El modelo identifica con precisión los elementos arquitectónicos de la escena (como paredes y ventanas) y los límites semánticos de los objetos (como "sofá – 1,8 m de largo – 0,5 m de la pared"), y los proporciona en un lenguaje de scripting estructurado, dotando a las máquinas de una capacidad de comprensión espacial similar a la humana.
Su tecnología central se basa en MASt3R-SLAM, que descompone el vídeo en fotogramas, extrae detalles espaciales y genera una nube de puntos 3D de alta densidad. A continuación, un codificador de nubes de puntos convierte los datos en vectores de características compactos, y un modelo de lenguaje grande (LLM) genera el código de la escena, garantizando que el diseño 3D resultante cumpla con las reglas físicas (como "los muebles no pueden flotar" o "el ancho del pasillo ≥ 0,8 m"). Esta arquitectura multimodal cierra eficazmente la brecha entre los datos geométricos tridimensionales no estructurados y la representación estructurada, proporcionando una comprensión semántica de alto nivel para el análisis de escenas complejas.
Código abierto: reducción del umbral de desarrollo de la inteligencia encarnada
Qunhe Technology ha lanzado dos versiones de SpatialLM de código abierto: SpatialLM-Llama-1B (basado en Llama) y SpatialLM-Qwen-0.5B (basado en Qwen), con 100 millones y 50 millones de parámetros respectivamente. En comparación con los LLM actuales, que suelen tener cientos de millones de parámetros, estos son ligeros y eficientes. El modelo ya está disponible para los desarrolladores de todo el mundo en plataformas como Hugging Face, GitHub y ModelScope, junto con tutoriales detallados y conjuntos de datos de prueba (como SpatialLM-Testset, que incluye 107 conjuntos de datos de nubes de puntos reconstruidos a partir de vídeos RGB monoculares). Los desarrolladores pueden ejecutar la inferencia mediante sencillos scripts de Python y utilizar herramientas de visualización (como Rerun) para ver los resultados del diseño 3D.
Esta iniciativa de código abierto proporciona un marco de entrenamiento básico para el campo de la inteligencia encarnada. El científico jefe de Qunhe Technology, Zhou Zihang, afirma: "SpatialLM tiene como objetivo ayudar a las empresas de robótica que no tienen capacidad de desarrollo de modelos a mejorar rápidamente su capacidad de comprensión espacial mediante el ajuste fino". En combinación con SpatialVerse, la plataforma de inteligencia espacial de código abierto de Qunhe, SpatialLM puede convertir escenas del mundo real en entornos de entrenamiento virtuales, generando miles de millones de escenas simuladas y reduciendo considerablemente los costes y riesgos del entrenamiento robótico.
Amplias aplicaciones: desde la robótica hasta el diseño arquitectónico
SpatialLM tiene un abanico de aplicaciones extremadamente amplio. En el campo de la inteligencia encarnada, permite a los robots navegar, evitar obstáculos y ejecutar tareas en entornos complejos, proporcionando un soporte tecnológico fundamental para el hogar inteligente y los robots de servicio. En el diseño y la planificación de edificios, el modelo puede analizar datos de nubes de puntos de edificios, identificar automáticamente estructuras como paredes y ventanas, y facilitar un diseño eficiente. Además, en la educación y la formación, SpatialLM se puede utilizar para desarrollar software de modelado 3D, ayudando a los estudiantes a comprender intuitivamente las relaciones espaciales. En el desarrollo de AR/VR y juegos, su capacidad de generación de escenas virtuales ofrece soluciones de bajo coste para experiencias inmersivas.
La liberación de código abierto de SpatialLM no solo demuestra la experiencia técnica de Qunhe Technology en el campo de la inteligencia espacial, sino que también impulsa la popularización e innovación de la tecnología de visión 3D. En comparación con modelos como SceneScript de Meta, SpatialLM tiene una mayor versatilidad gracias a la utilización de vídeos comunes como entrada, y en el futuro se planea iterar en la interacción con lenguaje natural y la interacción con la escena para mejorar aún más la utilidad del modelo.
Proyecto: https://huggingface.co/manycore-research/SpatialLM-Llama-1B