कृत्रिम बुद्धिमत्ता की तीव्र प्रतिस्पर्धा में, एक लाख डॉलर के बड़े पैमाने पर प्रयोग से बड़े भाषा मॉडल के प्रशिक्षण के तरीके को बदल दिया जा रहा है। स्टेप स्टार रिसर्च टीम ने हाल ही में एक महत्वपूर्ण शोध परिणाम जारी किया है, जिसमें उन्होंने लगभग 1 मिलियन NVIDIA H800 GPU घंटों की कंप्यूटिंग शक्ति का उपयोग करके, शून्य से 3,700 विभिन्न आकार के मॉडल को प्रशिक्षित किया है, जिसने कुल मिलाकर 100 ट्रिलियन टोकन का प्रशिक्षण किया है, और एक सार्वभौमिक स्केलिंग नियम जिसे "स्टेप लॉ" कहा जाता है, का खुलासा किया है, जो बड़े भाषा मॉडल के कुशल प्रशिक्षण के लिए एक नया मार्गदर्शन प्रदान करता है।
यह शोध केवल अति-पैरामीटर अनुकूलन की खोज नहीं है, बल्कि विभिन्न आकृतियों, विरलता और डेटा वितरण के तहत मॉडल के इष्टतम अति-पैरामीटर की स्थिरता का पहला व्यापक अध्ययन भी है। शोध के निष्कर्षों से पता चलता है कि मॉडल किसी भी आर्किटेक्चर डिज़ाइन का उपयोग करता है, चाहे प्रशिक्षण डेटा किसी भी भाषा या क्षेत्र से हो, स्टेप लॉ आश्चर्यजनक स्थिरता दिखाता है, जो वास्तविक अनुप्रयोगों में इस उपकरण के मूल्य को बढ़ाता है।
टीम द्वारा प्रशिक्षित 3,700 मॉडल में विभिन्न आकार, विभिन्न अति-पैरामीटर संयोजन, विभिन्न आकार, विभिन्न डेटा अनुपात और विभिन्न विरलता विन्यास शामिल हैं, जिनमें MoE और Dense दोनों आर्किटेक्चर शामिल हैं। इन बड़े पैमाने पर प्रयोगों के माध्यम से, उन्होंने पाया कि इष्टतम सीखने की दर मॉडल पैरामीटर स्केल और डेटा स्केल के साथ एक पावर-लॉ परिवर्तन दिखाती है, जबकि इष्टतम बैच आकार मुख्य रूप से डेटा स्केल से संबंधित है। यह खोज अति-पैरामीटर सेटिंग के बारे में उद्योग की पारंपरिक समझ को बदल देती है।
चित्र कैप्शन: यह चित्र AI द्वारा बनाया गया है, और छवि अधिकार सेवा प्रदाता Midjourney है।
प्रयोगात्मक डेटा से पता चलता है कि निश्चित मॉडल आकार और डेटा स्केल के तहत, अति-पैरामीटर अनुकूलन परिदृश्य एक स्पष्ट उत्तल विशेषता दिखाता है, जिसका अर्थ है कि एक स्थिर और आसानी से मिलने वाला इष्टतम अति-पैरामीटर क्षेत्र मौजूद है। इसे सत्यापित करने के लिए, शोध टीम ने एक त्रि-आयामी दृश्य स्थान का निर्माण किया, जो सीखने की दर और बैच आकार के प्रशिक्षण हानि पर प्रभाव को स्पष्ट रूप से दिखाता है। परिणाम स्पष्ट रूप से "घाटी" आकार दिखाते हैं, उत्तल तल एक अपेक्षाकृत समतल क्षेत्र है, जो व्यावहारिक अति-पैरामीटर समायोजन के लिए मूल्यवान सैद्धांतिक आधार प्रदान करता है।
इस खोज को पूरे AI समुदाय के लिए उपलब्ध कराने के लिए, टीम ने एक सामान्य इष्टतम अति-पैरामीटर अनुमान उपकरण विकसित और लॉन्च किया है। इस उपकरण के पूर्वानुमान परिणाम संपूर्ण खोज द्वारा प्राप्त वैश्विक इष्टतम अति-पैरामीटर की तुलना में केवल 0.09% की प्रदर्शन अंतर दिखाते हैं। इसका मतलब है कि शोधकर्ताओं और इंजीनियरों को महंगे ग्रिड खोज पर निर्भर रहने की आवश्यकता नहीं है, बल्कि इस उपकरण के माध्यम से सीधे इष्टतम अति-पैरामीटर कॉन्फ़िगरेशन प्राप्त कर सकते हैं।
और भी प्रभावशाली स्टेप लॉ की व्यापकता है। शोध दल ने इसकी प्रयोज्यता की सीमा को तीन अलग-अलग कोणों से सत्यापित किया है: सबसे पहले, चाहे मॉडल का आकार कैसे भी बदले - चौड़ाई-पक्षपाती, गहराई-पक्षपाती या चौड़ाई-गहराई संतुलन - स्टेप लॉ इष्टतम अति-पैरामीटर क्षेत्र का सटीक अनुमान लगा सकता है; दूसरा, यह नियम न केवल घने मॉडल पर लागू होता है, बल्कि विभिन्न विरलता के MoE मॉडल तक भी अच्छी तरह से बढ़ाया जा सकता है; अंत में, चाहे प्रशिक्षण डेटा अंग्रेजी-प्रधान, अंग्रेजी-चीनी द्विभाषी, कोड और अंग्रेजी मिश्रित या कोड-प्रधान वितरण हो, स्टेप लॉ आश्चर्यजनक स्थिरता दिखाता है।
शोध से सीखने की दर शेड्यूलिंग रणनीति के अनुकूलन की दिशा का भी पता चला है। पारंपरिक सीखने की दर क्षय रणनीति के विपरीत, टीम ने एक निश्चित न्यूनतम सीखने की दर (1e-5) का उपयोग करने का सुझाव दिया है, न कि पारंपरिक विधि में अधिकतम मान के दसवें हिस्से के रूप में न्यूनतम मान सेट करना। इस बदलाव से प्रशिक्षण बाद के चरण में अधिक उचित पैरामीटर अद्यतन चरण बनाए रख सकता है, जिससे हानि फ़ंक्शन के अभिसरण चरण में निरंतर दोलन से प्रभावी ढंग से बचा जा सकता है।
इसके अलावा, शोध में पाया गया कि चिकनी प्रशिक्षण हानि और सत्यापन हानि के इष्टतम अति-पैरामीटर अत्यधिक सुसंगत हैं, यह खोज अति-पैरामीटर चयन के लिए एक अधिक किफायती विधि प्रदान करती है - शोधकर्ता सत्यापन सेट पर मॉडल के प्रदर्शन का बार-बार मूल्यांकन किए बिना अति-पैरामीटर समायोजन का मार्गदर्शन करने के लिए चिकनी प्रशिक्षण हानि की निगरानी कर सकते हैं।
उल्लेखनीय उपलब्धियों के बावजूद, स्टेप स्टार रिसर्च टीम ने स्वीकार किया कि यह केवल एक शुरुआत है। वे लगभग 4000 मॉडल के अंतिम चेकपॉइंट सहित प्रयोग के विभिन्न विवरणों को क्रमिक रूप से ओपन सोर्स करने की योजना बना रहे हैं, ताकि पूरे समुदाय को और अधिक गहन विश्लेषण और सैद्धांतिक व्याख्या करने की अनुमति मिल सके। भविष्य के शोध की दिशा में लॉस-बीएस-एलआर त्रि-आयामी अंतरिक्ष की उत्तलता की खोज, इष्टतम अति-पैरामीटर फिटिंग विधि में सुधार, विभिन्न कॉन्फ़िगरेशन के तहत इष्टतम क्षेत्र में परिवर्तन की व्याख्या और विभिन्न सेटिंग्स के तहत प्रशिक्षण गतिशीलता का गहन अध्ययन शामिल है।
भविष्य के Predictable Scale श्रृंखला के काम में आगे बड़े मॉडल के प्रदर्शन की भविष्यवाणी, कोड और गणित के स्केलिंग गुणों और विभिन्न ध्यान प्रकारों के स्केलिंग गुणों पर चर्चा की जा सकती है। यह अनुमान लगाया जा सकता है कि इस श्रृंखला के शोध बड़े भाषा मॉडल के कुशल प्रशिक्षण के लिए अधिक व्यापक सैद्धांतिक मार्गदर्शन और व्यावहारिक उपकरण प्रदान करेंगे, और AI तकनीक को अधिक कुशल और अधिक नियंत्रणीय दिशा में विकसित करने को बढ़ावा देंगे।