Magma-8B ist ein von Microsoft entwickeltes multimodales KI-Basismodell, das speziell für die Erforschung multimodaler KI-Agenten entwickelt wurde. Es kombiniert Text- und Bildeingaben, kann Textausgaben generieren und verfügt über Fähigkeiten zur visuellen Planung und Steuerung. Das Modell verwendet Meta LLaMA-3 als Rückgrat des Sprachmodells und kombiniert es mit einem CLIP-ConvNeXt-XXLarge-Bildkodierer. Es unterstützt das Lernen von Raum-Zeit-Beziehungen aus unbeschrifteten Videodaten und zeichnet sich durch eine hohe Generalisierungsfähigkeit und Multi-Task-Anpassungsfähigkeit aus. Magma-8B zeigt hervorragende Leistungen bei multimodalen Aufgaben, insbesondere im Bereich des räumlichen Verständnisses und der räumlichen Schlussfolgerung. Es bietet ein leistungsstarkes Werkzeug für die multimodale KI-Forschung und fördert die Forschung zu komplexen Interaktionen in virtuellen und realen Umgebungen.