Magma es un modelo base multimodal desarrollado por el equipo de investigación de Microsoft, diseñado para planificar y ejecutar tareas complejas mediante la combinación de visión, lenguaje y acción. Preentrenado con una gran cantidad de datos de lenguaje visual, posee capacidades de comprensión del lenguaje, inteligencia espacial y planificación de acciones, lo que le permite destacar en tareas como la navegación de interfaces de usuario y la manipulación robótica. La aparición de este modelo proporciona un potente marco básico para tareas de agentes de IA multimodales, con un amplio abanico de aplicaciones.