Microsoft ha lanzado oficialmente y de código abierto en su sitio web el modelo base de agente de IA multimodal "Magma". Esta tecnología emergente, en comparación con los asistentes inteligentes tradicionales, muestra una capacidad multimodal mucho más poderosa, capaz de procesar múltiples formas de datos como imágenes, videos y texto, rompiendo las barreras entre el mundo digital y el físico.

Magma no solo puede ayudar a los usuarios a realizar pedidos automáticamente en plataformas de comercio electrónico y consultar el clima, entre otras tareas cotidianas, sino que también puede colaborar con robots físicos para realizar operaciones más complejas. Por ejemplo, durante una partida de ajedrez real, Magma puede proporcionar consejos estratégicos en tiempo real, mejorando significativamente la experiencia de juego. Además, cuenta con una función de predicción psicológica, capaz de predecir el comportamiento futuro de personas u objetos en un video, lo que permite que los asistentes virtuales o robots comprendan mejor el entorno dinámico que les rodea y reaccionen en consecuencia.

image.png

Según la presentación oficial, las aplicaciones de Magma son muy amplias. No solo puede ayudar a los robots domésticos a aprender a organizar objetos que nunca antes ha visto, sino que también puede generar instrucciones paso a paso para la navegación de la interfaz de usuario para tareas desconocidas para los asistentes virtuales. Esta funcionalidad permite a los usuarios obtener ayuda y orientación más precisas cuando se enfrentan a entornos o tareas nuevas.

image.png

Magma forma parte de los modelos base de lenguaje visual y acción (VLA), capaz de aprender a través de una gran cantidad de datos visuales y lingüísticos públicos. Esta capacidad permite a Magma integrar eficazmente la inteligencia lingüística, espacial y temporal para proporcionar soluciones a tareas complejas en los mundos digital y físico.

La publicación de código abierto de Magma proporciona a los desarrolladores e investigadores una herramienta poderosa que impulsa el desarrollo de asistentes inteligentes y robots domésticos. En el futuro, a medida que esta tecnología se perfeccione, es posible que veamos más aplicaciones innovadoras basadas en Magma en nuestra vida diaria.

Dirección del proyecto: https://microsoft.github.io/Magma/