हाल ही में, कार्नेगी मेलन विश्वविद्यालय, स्टैनफोर्ड विश्वविद्यालय, हार्वर्ड विश्वविद्यालय और प्रिंसटन विश्वविद्यालय के शोधकर्ताओं ने बड़े भाषा मॉडल (LLM) के प्रशिक्षण के बारे में एक नई खोज का खुलासा किया है: यह ज़रूरी नहीं है कि जितना ज़्यादा पूर्व-प्रशिक्षण डेटा होगा, मॉडल का प्रदर्शन उतना ही बेहतर होगा। इसके विपरीत, उन्होंने बताया कि अत्यधिक पूर्व-प्रशिक्षण से मॉडल का प्रदर्शन कम हो सकता है, एक घटना जो "विनाशकारी अति-प्रशिक्षण" के रूप में जानी जाती है।

एक अध्ययन में, शोधकर्ताओं ने OLMo-1B मॉडल की तुलना की, जिसे क्रमशः 2.3 ट्रिलियन और 3 ट्रिलियन टोकन के साथ प्रशिक्षित किया गया था। अप्रत्याशित रूप से, जबकि दूसरे मॉडल को अधिक डेटा के साथ प्रशिक्षित किया गया था, इसका प्रदर्शन कुछ बेंचमार्क (जैसे AlpacaEval और ARC) में 3% तक कम हो गया। इसने पारंपरिक विचार पर सवाल उठाए: क्या अधिक प्रशिक्षण वास्तव में बेहतर है?

मेटा वर्स साइंस फिक्शन साइबरपंक पेंटिंग (3) बड़ा मॉडल

चित्र स्रोत नोट: यह चित्र AI द्वारा उत्पन्न किया गया है, चित्र अधिकार सेवा प्रदाता Midjourney है।

शोधकर्ताओं ने बताया कि यह प्रदर्शन में गिरावट "क्रमिक संवेदनशीलता" घटना से संबंधित है। जैसे-जैसे मॉडल को अधिक टोकन मिलते हैं, मॉडल छोटे बदलावों के प्रति अधिक संवेदनशील हो जाता है। उदाहरण के लिए, ठीक-ठीक ट्यूनिंग प्रक्रिया में छोटे समायोजन या शोर के परिचय से भी पिछले प्रशिक्षण प्रभाव उलट सकते हैं। इस बात की पुष्टि करने के लिए, शोधकर्ताओं ने मॉडल में गॉसियन शोर डाला, और परिणामों से पता चला कि लंबे समय तक प्रशिक्षित मॉडल का प्रदर्शन अधिक स्पष्ट रूप से कम हो गया।

अध्ययन में, लेखकों ने एक महत्वपूर्ण अवधारणा प्रस्तुत की, जिसे "टर्निंग पॉइंट" कहा जाता है, जिस बिंदु पर अतिरिक्त प्रशिक्षण प्रदर्शन में वृद्धि के बजाय कमी का कारण बनने लगता है। OLMo-1B जैसे छोटे मॉडल के लिए, यह टर्निंग पॉइंट आमतौर पर 2.5 ट्रिलियन से अधिक टोकन के बाद होता है। शोधकर्ताओं ने चेतावनी दी है कि "विनाशकारी अति-प्रशिक्षण" अपरिहार्य हो सकता है, खासकर जब पूर्व-प्रशिक्षण और ठीक-ठीक ट्यूनिंग कार्य असंगत हों।

जबकि शोधकर्ताओं ने पूर्व-प्रशिक्षण को पूरी तरह से त्यागने का सुझाव नहीं दिया है, लेकिन उन्होंने जोर देकर कहा कि डेवलपर्स को पूर्व-प्रशिक्षण की मात्रा पर सावधानीपूर्वक विचार करना चाहिए। अध्ययन के निष्कर्ष मॉडल स्केलिंग में पूरी प्रशिक्षण प्रक्रिया के डिजाइन पर पुनर्विचार करने का आह्वान करते हैं। मॉडल के आकार का पीछा करने वाले AI डेवलपर्स के लिए, इस अध्ययन का संदेश स्पष्ट है: कभी-कभी, कम अधिक होता है।