कृत्रिम बुद्धिमत्ता के क्षेत्र में, बड़े भाषा मॉडल (LLMs) को प्रशिक्षित करना तकनीकी प्रगति को बढ़ावा देने का एक महत्वपूर्ण दिशा बन गया है। हालाँकि, जैसे-जैसे मॉडल का आकार और डेटा सेट का विस्तार हो रहा है, पारंपरिक अनुकूलन विधियाँ - विशेष रूप से AdamW - अपनी सीमाएँ दिखाने लगी हैं। शोधकर्ताओं को उच्च गणनात्मक लागत, प्रशिक्षण में अस्थिरता जैसी कई चुनौतियों का सामना करना पड़ रहा है, जिनमें ग्रेडिएंट का गायब होना या विस्फोट होना, पैरामीटर मैट्रिक्स का असंगत अपडेट होना और वितरित वातावरण में संसाधनों की उच्च मांग शामिल हैं। इसलिए, इन जटिलताओं का सामना करने के लिए अधिक कुशल और स्थिर अनुकूलन तकनीकों की तत्काल आवश्यकता है।
इन चुनौतियों को हल करने के लिए, Moonshot AI (चाँद का अंधेरा पक्ष) ने कैलिफोर्निया विश्वविद्यालय, लॉस एंजेलेस (UCLA) के साथ मिलकर Moonlight विकसित किया, जो Muon अनुकूलक का उपयोग करने वाला एक Mixture-of-Expert (MoE) मॉडल है। Moonlight दो कॉन्फ़िगरेशन प्रदान करता है: एक जिसमें सक्रियण पैरामीटर 3 बिलियन है, और दूसरा जिसमें कुल पैरामीटर 16 बिलियन है, जिसमें 5.7 ट्रिलियन टैग का उपयोग किया गया है। Muon अनुकूलक का नवाचार न्यूटन-शुल्ज़ पुनरावृत्ति विधि का उपयोग करके मैट्रिक्स को ऑर्थोगोनलाइज करना है, जो मॉडल पैरामीटर स्थान में ग्रेडिएंट अपडेट की समानता सुनिश्चित करता है। यह सुधार पारंपरिक AdamW के लिए एक आशाजनक विकल्प प्रदान करता है, जिससे प्रशिक्षण की दक्षता और स्थिरता में सुधार होता है।
तकनीकी विवरण में, Moonlight ने Muon अनुकूलक में दो प्रमुख समायोजन किए हैं। पहले, बड़े मॉडल और बड़े टैग प्रशिक्षण के दौरान वजन की वृद्धि को नियंत्रित करने के लिए वजन क्षय तकनीक को पेश किया गया है। दूसरे, प्रत्येक पैरामीटर के अपडेट की मात्रा को समायोजित किया गया है, ताकि इसे वजन मैट्रिक्स के अधिकतम आयाम के वर्गमूल के अनुसार स्केल किया जा सके, जिससे अपडेट की एकरूपता प्राप्त होती है।
Moonlight का अनुभवात्मक मूल्यांकन करने पर, शोधकर्ताओं ने पाया कि इसके मध्य चेकपॉइंट पर प्रदर्शन पारंपरिक AdamW प्रशिक्षण मॉडल से बेहतर था। उदाहरण के लिए, भाषा समझने के कार्यों में, Moonlight ने MMLU बेंचमार्क परीक्षण पर उच्च स्कोर प्राप्त किया। कोड जनरेशन कार्यों में, प्रदर्शन में और भी स्पष्ट सुधार हुआ, जो दर्शाता है कि Muon का अनुकूलन तंत्र कार्य प्रदर्शन में सकारात्मक योगदान देता है।
Moonlight परियोजना के सफल कार्यान्वयन से बड़े भाषा मॉडल के प्रशिक्षण के लिए नए मानक स्थापित होंगे। Muon अनुकूलक का ओपन-सोर्स कार्यान्वयन और पूर्व-प्रशिक्षित मॉडल और मध्य चेकपॉइंट की रिलीज़, स्केलेबल अनुकूलन तकनीकों पर आगे के शोध को बढ़ावा देने की उम्मीद है।
github:https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file
huggingface:https://huggingface.co/moonshotai/Moonlight-16B-A3B
पेपर:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
महत्वपूर्ण बिंदु:
🌟 Moonlight मॉडल Moonshot AI और UCLA द्वारा संयुक्त रूप से विकसित Mixture-of-Expert मॉडल है, जो 3 बिलियन और 16 बिलियन पैरामीटर कॉन्फ़िगरेशन प्रदान करता है, जिसमें 5.7 ट्रिलियन टैग का उपयोग किया गया है।
⚙️ Muon अनुकूलक न्यूटन-शुल्ज़ पुनरावृत्ति विधि और वजन क्षय तकनीक के माध्यम से बड़े मॉडल प्रशिक्षण की दक्षता और स्थिरता को महत्वपूर्ण रूप से बढ़ाता है।
📈 अनुभवात्मक परिणाम दिखाते हैं कि Moonlight कई कार्यों पर पारंपरिक AdamW प्रशिक्षण मॉडल से बेहतर है, जो बेहतर भाषा समझ और कोड जनरेशन क्षमता प्रदर्शित करता है।