Magma-8B est un modèle d'IA multimodale de base développé par Microsoft, spécialement conçu pour la recherche sur les agents d'IA multimodales. Il combine des entrées texte et image pour générer des sorties textuelles, et possède des capacités de planification visuelle et d'action. Ce modèle utilise Meta LLaMA-3 comme architecture de modèle linguistique, combiné à un encodeur visuel CLIP-ConvNeXt-XXLarge. Il est capable d'apprendre les relations spatio-temporelles à partir de données vidéo non étiquetées, ce qui lui confère une forte capacité de généralisation et une grande adaptabilité aux tâches multiples. Magma-8B excelle dans les tâches multimodales, notamment en matière de compréhension et de raisonnement spatial. Il fournit un outil puissant pour la recherche en IA multimodale, stimulant la recherche d'interactions complexes dans des environnements virtuels et réels.