Magma ist ein multimodales Basismodell, das vom Microsoft Research Team entwickelt wurde. Es zielt darauf ab, komplexe Aufgaben durch die Kombination von visuellen, sprachlichen und Handlungsdaten zu planen und auszuführen. Durch das Vortraining mit umfangreichen visuellen Sprachdaten verfügt es über Fähigkeiten im Sprachverständnis, räumlicher Intelligenz und Handlungsplanung und kann in Aufgaben wie UI-Navigation und Roboterbedienung hervorragende Leistungen erbringen. Dieses Modell bietet einen leistungsstarken Basisrahmen für multimodale KI-Agentenaufgaben und verfügt über ein breites Anwendungsspektrum.