हाल ही में, एलेन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट (AI2) ने एक नई ओपन-सोर्स मॉडल OLMoE लॉन्च किया है, जिसका उद्देश्य बड़े भाषा मॉडल (LLM) की मांग को पूरा करना है। यह मॉडल न केवल प्रदर्शन में उत्कृष्ट है, बल्कि लागत में भी अपेक्षाकृत सस्ता है।

image.png

OLMoE एक स्पार्स मिक्स्ड एक्सपर्ट (MoE) आर्किटेक्चर का उपयोग करता है, जिसमें 7 बिलियन पैरामीटर हैं, लेकिन प्रत्येक इनपुट टोकन के लिए केवल 1 बिलियन पैरामीटर का उपयोग किया जाता है। इसके दो संस्करण हैं, एक अधिक सामान्य OLMoE-1B-7B और एक निर्देश समायोजित OLMoE-1B-7B-Instruct।

image.png

अन्य अधिकांश बंद-स्रोत मिक्स्ड एक्सपर्ट मॉडलों के विपरीत, AI2 विशेष रूप से जोर देता है कि OLMoE पूरी तरह से ओपन-सोर्स है। उन्होंने अपने पेपर में उल्लेख किया, "अधिकांश MoE मॉडल बंद-स्रोत हैं: हालाँकि कुछ ने मॉडल वजन सार्वजनिक किए हैं, लेकिन उनके प्रशिक्षण डेटा, कोड या व्यंजनों की जानकारी अत्यधिक सीमित है।" इससे कई शैक्षणिक शोधकर्ताओं के लिए इन मॉडलों तक पहुँच प्राप्त करना मुश्किल हो जाता है।

AI2 के शोध वैज्ञानिक नाथन लैंबर्ट ने सोशल मीडिया पर कहा कि OLMoE नीति निर्माण में मदद करेगा, जो शैक्षणिक समुदाय के H100 क्लस्टर के लॉन्च के लिए एक प्रारंभिक बिंदु प्रदान कर सकता है। उन्होंने यह भी बताया कि OLMoE मॉडल का लॉन्च AI2 के ओपन-सोर्स मॉडल विकसित करने और उनके प्रदर्शन को बंद मॉडलों के समान बनाने के लक्ष्य का एक हिस्सा है।

मॉडल के निर्माण में, AI2 ने 64 छोटे विशेषज्ञों का उपयोग करने का निर्णय लिया और रनटाइम पर केवल आठ को सक्रिय किया। प्रयोगों से पता चला है कि OLMoE प्रदर्शन में अन्य मॉडलों के बराबर है, लेकिन अनुमान लागत और मेमोरी स्टोरेज में काफी कमी आई है। OLMoE AI2 के पिछले ओपन-सोर्स मॉडल OLMO1.7-7B पर भी आधारित है, जो 4096 टोकन के संदर्भ विंडो का समर्थन करता है। OLMoE का प्रशिक्षण डेटा कई स्रोतों से आया है, जिसमें कॉमन क्रॉल, डोलमा CC और विकिपीडिया शामिल हैं।

बेंचमार्क परीक्षणों में, OLMoE-1B-7B समान पैरामीटर वाले मॉडलों की तुलना में कई मौजूदा मॉडलों से बेहतर प्रदर्शन करता है, यहां तक कि बड़े पैमाने के मॉडलों जैसे Llama2-13B-Chat और DeepSeekMoE-16B को भी पीछे छोड़ देता है।

image.png

AI2 के लक्ष्यों में से एक शोधकर्ताओं को अधिक पूरी तरह से ओपन-सोर्स AI मॉडलों, जिसमें मिक्स्ड एक्सपर्ट आर्किटेक्चर शामिल है, प्रदान करना है। हालांकि कई डेवलपर्स MoE आर्किटेक्चर का उपयोग कर रहे हैं, AI2 का मानना है कि अधिकांश अन्य AI मॉडल की ओपननेस अभी भी काफी कम है।

huggingface: https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da

पेपर लिंक: https://arxiv.org/abs/2409.02060

मुख्य बिंदु:

- 🌟 AI2 द्वारा जारी किया गया नया ओपन-सोर्स मॉडल OLMoE प्रदर्शन और लागत दोनों में प्रतिस्पर्धी है।

- 📊 OLMoE ने स्पार्स मिक्स्ड एक्सपर्ट आर्किटेक्चर का उपयोग किया है, जो अनुमान लागत और मेमोरी आवश्यकताओं को प्रभावी ढंग से कम करता है।

- 🔍 AI2 पूरी तरह से ओपन-सोर्स AI मॉडलों को प्रदान करने के लिए प्रतिबद्ध है, जिससे शैक्षणिक अनुसंधान और विकास को बढ़ावा मिलता है।