MAP-NEO एक पूरी तरह से ओपन-सोर्स बड़ा भाषा मॉडल है, जिसमें प्री-ट्रेनिंग डेटा, डेटा प्रोसेसिंग पाइपलाइन (मैट्रिक्स), प्री-ट्रेनिंग स्क्रिप्ट और संरेखण कोड शामिल हैं। यह मॉडल ज़ीरो से प्रशिक्षित किया गया है, जिसमें 4.5T अंग्रेजी और चीनी टोकन का उपयोग किया गया है, जो LLaMA2 7B के बराबर प्रदर्शन दिखाता है। MAP-NEO तर्क, गणित और कोडिंग जैसे चुनौतीपूर्ण कार्यों में उत्कृष्ट प्रदर्शन करता है, जो समान आकार के मॉडल से आगे निकल जाता है। शोध के उद्देश्य से, हम LLM प्रशिक्षण प्रक्रिया की पूरी पारदर्शिता प्राप्त करने के लिए प्रतिबद्ध हैं, इसलिए हमने MAP-NEO को पूरी तरह से जारी किया है, जिसमें अंतिम और मध्यवर्ती चेकपॉइंट, स्व-प्रशिक्षित टोकनाइज़र, प्री-ट्रेनिंग कॉर्पस और कुशल और स्थिर अनुकूलित प्री-ट्रेनिंग कोड लाइब्रेरी शामिल हैं।