Magma-8B माइक्रोसॉफ्ट द्वारा विकसित एक मल्टीमॉडल AI बेस मॉडल है, जिसे मल्टीमॉडल AI एजेंट के शोध के लिए डिज़ाइन किया गया है। यह टेक्स्ट और इमेज इनपुट को जोड़ता है, टेक्स्ट आउटपुट उत्पन्न कर सकता है, और इसमें विज़ुअल प्लानिंग और एजेंट क्षमता है। यह मॉडल भाषा मॉडल बैकबोन के रूप में Meta LLaMA-3 का उपयोग करता है, और CLIP-ConvNeXt-XXLarge विज़ुअल एन्कोडर को जोड़ता है, बिना लेबल वाले वीडियो डेटा से स्पेस-टाइम रिलेशनशिप सीखने का समर्थन करता है, और इसमें शक्तिशाली सामान्यीकरण क्षमता और मल्टीटास्क अनुकूलनशीलता है। Magma-8B मल्टीमॉडल कार्यों में उत्कृष्ट प्रदर्शन करता है, खासकर स्थानिक समझ और तर्क में। यह मल्टीमॉडल AI अनुसंधान के लिए एक शक्तिशाली उपकरण प्रदान करता है, जो वर्चुअल और वास्तविक वातावरण में जटिल इंटरैक्शन के अनुसंधान को आगे बढ़ाता है।