MiniMax ने 2025 के 15 जनवरी को अपने नए मॉडल श्रृंखला MiniMax-01 को ओपन-सोर्स करने की घोषणा की, जिसमें आधारभूत भाषा बड़े मॉडल MiniMax-Text-01 और दृश्य मल्टीमॉडल बड़े मॉडल MiniMax-VL-01 शामिल हैं। MiniMax-01 श्रृंखला ने आर्किटेक्चर में大胆 नवाचार किया है, पहली बार बड़े पैमाने पर रेखीय ध्यान तंत्र को लागू किया है, जो पारंपरिक ट्रांसफार्मर आर्किटेक्चर की सीमाओं को तोड़ता है। इसके पैरामीटर की मात्रा 4560 अरब तक पहुंच गई है, एक बार सक्रिय होने पर 45.9 अरब, समग्र प्रदर्शन विदेशी शीर्ष मॉडल के बराबर है, और यह 4000000 टोकन तक के संदर्भ को कुशलता से संभाल सकता है, जो GPT-4o की 32 गुना और Claude-3.5-Sonnet की 20 गुना लंबाई है।
MiniMax मानता है कि 2025 एजेंटों के तेजी से विकास का एक महत्वपूर्ण वर्ष होगा, चाहे वह एकल एजेंट प्रणाली हो या बहु-एजेंट प्रणाली, सभी को निरंतर स्मृति और बड़े पैमाने पर संचार का समर्थन करने के लिए लंबे संदर्भ की आवश्यकता है। MiniMax-01 श्रृंखला मॉडल का लॉन्च इस आवश्यकता को पूरा करने के लिए है, जो जटिल एजेंटों की बुनियादी क्षमताओं की स्थापना की दिशा में पहला कदम है।
आर्किटेक्चर नवाचार, दक्षता अनुकूलन और क्लस्टर प्रशिक्षण और推推 एकीकृत डिज़ाइन के कारण, MiniMax उद्योग में सबसे कम मूल्य सीमा पर टेक्स्ट और मल्टीमॉडल समझ के API सेवाएं प्रदान कर सकता है, मानक मूल्य निर्धारण इनपुट टोकन के लिए 1 युआन/ मिलियन टोकन और आउटपुट टोकन के लिए 8 युआन/ मिलियन टोकन है। MiniMax का ओपन प्लेटफॉर्म और विदेशी संस्करण अब लाइव है, डेवलपर्स के अनुभव के लिए उपलब्ध है।
MiniMax-01 श्रृंखला मॉडल GitHub पर ओपन-सोर्स किया गया है, और इसे लगातार अपडेट किया जाएगा। उद्योग के मुख्यधारा के टेक्स्ट और मल्टीमॉडल समझ मूल्यांकन में, MiniMax-01 श्रृंखला ने अधिकांश कार्यों में विदेशी मान्यता प्राप्त उन्नत मॉडल GPT-4o-1120 और Claude-3.5-Sonnet-1022 के बराबर प्रदर्शन किया है। विशेष रूप से लंबे पाठ कार्यों में, Google के Gemini मॉडल की तुलना में, MiniMax-Text-01 इनपुट लंबाई बढ़ने के साथ प्रदर्शन में सबसे धीमी गिरावट दिखाता है, जो Gemini से स्पष्ट रूप से बेहतर है।
MiniMax के मॉडल लंबे इनपुट को संभालने में अत्यधिक कुशल हैं, जो रेखीय जटिलता के करीब हैं। इसकी संरचना डिजाइन में, हर 8 परतों में से 7 परतें लाइटनिंग ध्यान पर आधारित रेखीय ध्यान का उपयोग करती हैं, जबकि 1 परत पारंपरिक सॉफ्टमैक्स ध्यान का उपयोग करती है। यह उद्योग में पहली बार है कि रेखीय ध्यान तंत्र को व्यावसायिक मॉडल स्तर तक विस्तारित किया गया है, MiniMax ने स्केलिंग लॉ, MoE के साथ संयोजन, संरचना डिजाइन, प्रशिक्षण अनुकूलन और अनुमान अनुकूलन जैसे क्षेत्रों में समग्र विचार किया है, और प्रशिक्षण और अनुमान प्रणाली का पुनर्निर्माण किया है, जिसमें अधिक कुशल MoE All-to-all संचार अनुकूलन, लंबी श्रृंखला अनुकूलन और अनुमान स्तर पर रेखीय ध्यान के लिए कुशल कर्नेल कार्यान्वयन शामिल हैं।
अधिकांश शैक्षणिक सेट पर, MiniMax-01 श्रृंखला ने विदेशी पहले श्रेणी के परिणामों के बराबर प्रदर्शन किया है। लंबे संदर्भ मूल्यांकन सेट पर, यह विशेष रूप से आगे है, जैसे कि 4000000 के Needle-In-A-Haystack खोज कार्य में उत्कृष्ट प्रदर्शन। शैक्षणिक डेटा सेट के अलावा, MiniMax ने वास्तविक डेटा पर आधारित सहायक परिदृश्य परीक्षण सेट भी बनाए हैं, जिसमें MiniMax-Text-01 ने इस परिदृश्य में उत्कृष्ट प्रदर्शन किया है। मल्टीमॉडल समझ परीक्षण सेट में, MiniMax-VL-01 भी अपेक्षाकृत अग्रणी है।
ओपन-सोर्स पता: https://github.com/MiniMax-AI