हाल ही में, एलेन आर्टिफिशियल इंटेलिजेंस इंस्टिट्यूट (AI2) ने अपने नवीनतम बड़े भाषा मॉडल - OLMo232B को लॉन्च किया है। यह मॉडल अपने आगमन के साथ ही चर्चा में आ गया है, क्योंकि यह न केवल OLMo2 श्रृंखला की नवीनतम कृति है, बल्कि यह "पूरी तरह से खुला" होने के कारण, उन मालिकाना मॉडलों को जो बंद हैं, एक मजबूत चुनौती देता है।

OLMo232B की सबसे आकर्षक विशेषता इसकी पूरी तरह से ओपन-सोर्स प्रकृति है। AI2 ने इस मॉडल के सभी डेटा, कोड, वज़न और विस्तृत प्रशिक्षण प्रक्रिया को उदारतापूर्वक सार्वजनिक किया है। यह "ईमानदारी से सामना करने" का तरीका, कुछ गुप्त क्लोज्ड-सोर्स मॉडलों के विपरीत है।

AI2 को उम्मीद है कि इस खुले सहयोग के तरीके से व्यापक अनुसंधान और नवाचार को बढ़ावा मिलेगा, ताकि दुनिया भर के शोधकर्ता OLMo232B के कंधों पर आगे बढ़ सकें। आखिरकार, ज्ञान साझा करने के युग में, चीजों को छिपाना लंबे समय तक काम नहीं करेगा।

32 अरब पैरामीटर: GPT-3.5Turbo से भी बेहतर क्षमता

निश्चित रूप से, केवल खुलेपन का भाव ही काफी नहीं है, क्षमता ही वास्तविक ताकत है। OLMo232B में 32 अरब पैरामीटर हैं, जो एक काफी बड़ी संख्या है, जो दर्शाता है कि यह अपने पूर्ववर्ती की तुलना में काफी बड़ा है।

और भी उत्साहजनक बात यह है कि कई व्यापक रूप से मान्यता प्राप्त शैक्षणिक बेंचमार्क परीक्षणों में, यह ओपन-सोर्स मॉडल GPT-3.5Turbo और GPT-4o mini से भी आगे निकल गया है! यह निस्संदेह ओपन-सोर्स AI समुदाय के लिए एक बड़ा प्रोत्साहन है, जो यह साबित करता है कि केवल "अमीर" संस्थान ही शीर्ष AI मॉडल नहीं बना सकते हैं। ऐसा लगता है कि मेहनत और चतुर प्रशिक्षण से भी "छोटे घोड़े से बड़ा काम" लिया जा सकता है।

QQ_1742280716141.png

OLMo232B इतना अच्छा प्रदर्शन क्यों कर पा रहा है, इसका श्रेय इसकी सुचारू प्रशिक्षण प्रक्रिया को जाता है। पूरी प्रशिक्षण प्रक्रिया दो मुख्य चरणों में विभाजित है: प्री-ट्रेनिंग और मिड-ट्रेनिंग। प्री-ट्रेनिंग चरण में, मॉडल ने लगभग 3.9 ट्रिलियन टोकन्स के विशाल डेटासेट का अध्ययन किया, जो DCLM, Dolma, Starcoder और Proof Pile II जैसे विभिन्न स्रोतों से एकत्रित किया गया था। यह ऐसा है जैसे मॉडल ने कई किताबें पढ़ी हैं और विभिन्न भाषा पैटर्न सीखे हैं।

और मिड-ट्रेनिंग Dolmino डेटासेट पर केंद्रित है, जिसमें 8430 अरब टोकन्स का उच्च-गुणवत्ता वाला डेटासेट है, जिसमें शिक्षा, गणित और शैक्षणिक सामग्री शामिल है, जिससे मॉडल की विशिष्ट क्षेत्रों में समझने की क्षमता में और सुधार हुआ है। इस चरणबद्ध, लक्षित प्रशिक्षण विधि ने यह सुनिश्चित किया है कि OLMo232B में मजबूत और परिष्कृत भाषा कौशल हों।

"कम ऊर्जा वाला": कम कंप्यूटिंग शक्ति से उच्च प्रदर्शन

उत्कृष्ट प्रदर्शन के अलावा, OLMo232B ने प्रशिक्षण दक्षता के मामले में भी अद्भुत क्षमता दिखाई है। ऐसा कहा जाता है कि यह अग्रणी ओपन-वेट मॉडल के बराबर प्रदर्शन के स्तर तक पहुँचते हुए, लगभग एक तिहाई कंप्यूटिंग संसाधनों का उपयोग करता है, जबकि Qwen2.532B जैसे मॉडल को अधिक कंप्यूटिंग शक्ति की आवश्यकता होती है।

यह एक कुशल कारीगर की तरह है, जो कम उपकरणों और समय का उपयोग करके, समान या इससे भी बेहतर काम पूरा करता है, जो AI2 द्वारा संसाधन-कुशल AI विकास में किए गए निवेश को दर्शाता है। यह यह भी दर्शाता है कि भविष्य में अधिक "सामान्य" शक्तिशाली AI मॉडल आ सकते हैं, जो केवल कुछ बड़े संस्थानों के लिए ही सीमित नहीं रहेंगे।

OLMo232B का प्रकाशन न केवल एक नया AI मॉडल है, बल्कि ओपन और सुलभ AI विकास पथ पर एक महत्वपूर्ण मील का पत्थर भी है। एक पूरी तरह से खुला और प्रदर्शन प्रदान करके जो कुछ मालिकाना मॉडलों से भी आगे निकल जाता है, AI2 ने यह साबित किया है कि सावधानीपूर्वक मॉडल डिज़ाइन और कुशल प्रशिक्षण विधियाँ बड़ी सफलताएँ ला सकती हैं। यह खुलापन दुनिया भर के शोधकर्ताओं और डेवलपर्स को सक्रिय रूप से भाग लेने और कृत्रिम बुद्धिमत्ता के क्षेत्र में प्रगति को बढ़ावा देने के लिए प्रोत्साहित करेगा, जिससे अंततः पूरे मानव समाज को लाभ होगा।

यह अनुमान लगाया जा सकता है कि OLMo232B के आगमन से AI अनुसंधान क्षेत्र में एक नई लहर आएगी। इसने न केवल अनुसंधान की बाधाओं को कम किया है, बल्कि व्यापक सहयोग को बढ़ावा दिया है, और हमें AI विकास का एक अधिक जीवंत और नवीन पथ भी दिखाया है। उन AI दिग्गजों के लिए जो अभी भी "अद्वितीय रहस्य" को पकड़े हुए हैं, शायद यह विचार करने का समय आ गया है कि खुलेपन को अपनाकर ही व्यापक भविष्य जीता जा सकता है।

github:https://github.com/allenai/OLMo-core

huggingface:https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct