Magma-8B es un modelo base de IA multimodal desarrollado por Microsoft, diseñado para la investigación de agentes de IA multimodales. Combina entradas de texto e imagen para generar salidas de texto, y posee capacidades de planificación visual y actuación. El modelo utiliza Meta LLaMA-3 como base del modelo de lenguaje y el codificador visual CLIP-ConvNeXt-XXLarge, pudiendo aprender relaciones espacio-temporales a partir de datos de vídeo sin etiquetar. Posee una potente capacidad de generalización y adaptabilidad multitarea. Magma-8B destaca en tareas multimodales, especialmente en la comprensión e inferencia espacial. Ofrece una potente herramienta para la investigación de IA multimodal, impulsando la investigación de interacciones complejas en entornos virtuales y reales.