हाल ही में, एलेन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट (AI2) ने एक नई ओपन-सोर्स मॉडल OLMoE लॉन्च किया है, जिसका उद्देश्य बड़े भाषा मॉडल (LLM) की मांग को पूरा करना है। यह मॉडल न केवल प्रदर्शन में उत्कृष्ट है, बल्कि लागत में भी अपेक्षाकृत सस्ता है।
OLMoE एक स्पार्स मिक्स्ड एक्सपर्ट (MoE) आर्किटेक्चर का उपयोग करता है, जिसमें 7 बिलियन पैरामीटर हैं, लेकिन प्रत्येक इनपुट टोकन के लिए केवल 1 बिलियन पैरामीटर का उपयोग किया जाता है। इसके दो संस्करण हैं, एक अधिक सामान्य OLMoE-1B-7B और एक निर्देश समायोजित OLMoE-1B-7B-Instruct।
अन्य अधिकांश बंद-स्रोत मिक्स्ड एक्सपर्ट मॉडलों के विपरीत, AI2 विशेष रूप से जोर देता है कि OLMoE पूरी तरह से ओपन-सोर्स है। उन्होंने अपने पेपर में उल्लेख किया, "अधिकांश MoE मॉडल बंद-स्रोत हैं: हालाँकि कुछ ने मॉडल वजन सार्वजनिक किए हैं, लेकिन उनके प्रशिक्षण डेटा, कोड या व्यंजनों की जानकारी अत्यधिक सीमित है।" इससे कई शैक्षणिक शोधकर्ताओं के लिए इन मॉडलों तक पहुँच प्राप्त करना मुश्किल हो जाता है।
AI2 के शोध वैज्ञानिक नाथन लैंबर्ट ने सोशल मीडिया पर कहा कि OLMoE नीति निर्माण में मदद करेगा, जो शैक्षणिक समुदाय के H100 क्लस्टर के लॉन्च के लिए एक प्रारंभिक बिंदु प्रदान कर सकता है। उन्होंने यह भी बताया कि OLMoE मॉडल का लॉन्च AI2 के ओपन-सोर्स मॉडल विकसित करने और उनके प्रदर्शन को बंद मॉडलों के समान बनाने के लक्ष्य का एक हिस्सा है।
मॉडल के निर्माण में, AI2 ने 64 छोटे विशेषज्ञों का उपयोग करने का निर्णय लिया और रनटाइम पर केवल आठ को सक्रिय किया। प्रयोगों से पता चला है कि OLMoE प्रदर्शन में अन्य मॉडलों के बराबर है, लेकिन अनुमान लागत और मेमोरी स्टोरेज में काफी कमी आई है। OLMoE AI2 के पिछले ओपन-सोर्स मॉडल OLMO1.7-7B पर भी आधारित है, जो 4096 टोकन के संदर्भ विंडो का समर्थन करता है। OLMoE का प्रशिक्षण डेटा कई स्रोतों से आया है, जिसमें कॉमन क्रॉल, डोलमा CC और विकिपीडिया शामिल हैं।
बेंचमार्क परीक्षणों में, OLMoE-1B-7B समान पैरामीटर वाले मॉडलों की तुलना में कई मौजूदा मॉडलों से बेहतर प्रदर्शन करता है, यहां तक कि बड़े पैमाने के मॉडलों जैसे Llama2-13B-Chat और DeepSeekMoE-16B को भी पीछे छोड़ देता है।
AI2 के लक्ष्यों में से एक शोधकर्ताओं को अधिक पूरी तरह से ओपन-सोर्स AI मॉडलों, जिसमें मिक्स्ड एक्सपर्ट आर्किटेक्चर शामिल है, प्रदान करना है। हालांकि कई डेवलपर्स MoE आर्किटेक्चर का उपयोग कर रहे हैं, AI2 का मानना है कि अधिकांश अन्य AI मॉडल की ओपननेस अभी भी काफी कम है।
huggingface: https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da
पेपर लिंक: https://arxiv.org/abs/2409.02060
मुख्य बिंदु:
- 🌟 AI2 द्वारा जारी किया गया नया ओपन-सोर्स मॉडल OLMoE प्रदर्शन और लागत दोनों में प्रतिस्पर्धी है।
- 📊 OLMoE ने स्पार्स मिक्स्ड एक्सपर्ट आर्किटेक्चर का उपयोग किया है, जो अनुमान लागत और मेमोरी आवश्यकताओं को प्रभावी ढंग से कम करता है।
- 🔍 AI2 पूरी तरह से ओपन-सोर्स AI मॉडलों को प्रदान करने के लिए प्रतिबद्ध है, जिससे शैक्षणिक अनुसंधान और विकास को बढ़ावा मिलता है।