हाल ही में, कृत्रिम बुद्धिमत्ता के क्षेत्र में फिर से हलचल मची है, मूनशॉट (Moonshot) ने नए संस्करण के ऑप्टिमाइज़र म्यूऑन (Muon) को ओपन सोर्स किया है, जिसने गणना दक्षता को पारंपरिक एडमडब्ल्यू (AdamW) के दोगुने तक सफलतापूर्वक बढ़ा दिया है। इस नए ऑप्टिमाइज़र का शुभारंभ डीपसीक (DeepSeek) के कई कोड लाइब्रेरी को लगातार ओपन सोर्स करने के समय पर हुआ है, जिससे उद्योग में बहुत ध्यान और चर्चा हुई है।

image.png

म्यूऑन ऑप्टिमाइज़र को शुरू में 2024 में ओपनएआई (OpenAI) के शोधकर्ता केलर जॉर्डन (Keller Jordan) आदि ने प्रस्तावित किया था, जो छोटे पैमाने के मॉडल प्रशिक्षण में उत्कृष्ट प्रदर्शन करता है। हालाँकि, मॉडल के पैमाने के बढ़ने के साथ, मूल म्यूऑन प्रदर्शन में सुधार पर अड़चन का सामना करता है। इसके लिए, मूनशॉट टीम ने गहन तकनीकी सुधार किए हैं, जिसमें मुख्य रूप से वज़न क्षय और सुसंगत माध्य वर्ग मूल (RMS) अपडेट जोड़ना शामिल है, ताकि बड़े पैमाने पर प्रशिक्षण में म्यूऑन का उपयोग किया जा सके, बिना अतिरिक्त पैरामीटर समायोजन की आवश्यकता के।

नए म्यूऑन ऑप्टिमाइज़र का उपयोग नवीनतम लॉन्च किए गए मूनलाइट (Moonlight) मॉडल में किया गया है, जो कि 3B/16B पैरामीटर वाला एक मिश्रित विशेषज्ञ (MoE) मॉडल है, जिसने 5.7 ट्रिलियन टोकन के प्रशिक्षण के बाद, प्रदर्शन में उल्लेखनीय वृद्धि की है, जो वर्तमान "परेटो फ्रंटियर" बन गया है। इस उपलब्धि का मतलब है कि समान प्रशिक्षण बजट के साथ, मूनलाइट मॉडल सभी प्रदर्शन संकेतकों में अन्य मॉडल को पार कर गया है।

मूनशॉट ने म्यूऑन का कार्यान्वयन कोड भी ओपन सोर्स किया है, और संबंधित पूर्व-प्रशिक्षण और मध्यवर्ती चेकपॉइंट जारी किए हैं, जो शोधकर्ताओं के आगे के शोध के लिए मूल्यवान संसाधन प्रदान करते हैं। शोध से पता चलता है कि प्रशिक्षण के दौरान म्यूऑन ऑप्टिमाइज़र को एडमडब्ल्यू (AdamW) की तुलना में केवल 52% FLOPs की आवश्यकता होती है, जो बड़े पैमाने पर भाषा मॉडल प्रशिक्षण में इसकी उच्च दक्षता की पुष्टि करता है।

मूनशॉट का म्यूऑन ऑप्टिमाइज़र न केवल प्रदर्शन में पारंपरिक ऑप्टिमाइज़र को पार करता है, बल्कि ओपन सोर्स के रूप में पूरे एआई क्षेत्र के विकास में नई ऊर्जा भी भरता है। अधिक से अधिक शोधकर्ताओं और डेवलपर्स की भागीदारी के साथ, इस ऑप्टिमाइज़र से कृत्रिम बुद्धिमत्ता तकनीक की आगे की प्रगति को बढ़ावा देने की उम्मीद है।

पेपर का पता:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf