La profesora de la Universidad de Stanford, Fei-Fei Li, conocida como la "madrina de la IA", y su equipo han publicado recientemente un estudio sobre la "inteligencia espacial" de los modelos de lenguaje multimodal, revelando que estos modelos ya poseen capacidades iniciales para memorizar y recordar espacios, y muestran un potencial para formar modelos del mundo locales.

El equipo de investigación desarrolló VSI-Bench, una herramienta para evaluar la capacidad de inteligencia espacial visual, que incluye más de 5000 pares de preguntas y respuestas de alta calidad basados en 288 videos reales. Los videos de prueba abarcan espacios residenciales, lugares de trabajo y entornos industriales, e involucran múltiples regiones geográficas.

QQ20241223-144615.png

Los resultados del estudio muestran que, aunque el rendimiento general de los modelos multimodales aún es inferior al de los humanos, en algunas tareas ya han alcanzado o se acercan al nivel humano. Por ejemplo, Gemini-1.5Pro destaca en tareas como la estimación de distancias absolutas y el tamaño de las habitaciones, y algunos modelos de código abierto, como la serie LLaVA, también han obtenido resultados competitivos.

El estudio también señala que el uso de mapas cognitivos para ayudar en el razonamiento espacial puede mejorar significativamente el rendimiento de los modelos en tareas espaciales, con un aumento de la precisión de hasta 10 puntos porcentuales. Esto indica que la generación explícita de mapas cognitivos puede ayudar a superar los cuellos de botella en la comprensión espacial de los modelos.

Li Fei-Fei afirma que la inteligencia espacial es una capacidad clave para que la IA comprenda el mundo físico y es crucial para lograr la Inteligencia Artificial General (AGI). Cree que la inteligencia espacial se convertirá en la próxima frontera en el campo de la IA, e incluso espera que se logren avances importantes en 2025.

En septiembre de este año, World Labs, la empresa fundada por Li Fei-Fei, anunció su lanzamiento oficial, centrándose en el desarrollo de modelos de IA con inteligencia espacial. Esta empresa ha recibido inversiones de instituciones de renombre como Nvidia, a16z y Adobe, y actualmente tiene una valoración superior a los 1000 millones de dólares.

Esta investigación y sus aplicaciones marcan un progreso clave en la tecnología de IA, desde el procesamiento de información bidimensional hasta la percepción espacial tridimensional. En el futuro, se espera que se aplique ampliamente en áreas como la navegación, la interacción robótica y la realidad aumentada, abriendo nuevas vías para el desarrollo de la inteligencia artificial.