स्टैनफोर्ड विश्वविद्यालय और वाशिंगटन विश्वविद्यालय के शोध दल ने हाल ही में एक क्रांतिकारी AI प्रशिक्षण विधि का संयुक्त रूप से प्रकाशन किया है, जिसका नाम S1 है। इसका मुख्य विचार अत्यधिक सरल परीक्षण समय स्केलिंग तकनीक का उपयोग करके भाषा मॉडल की तर्कशक्ति को महत्वपूर्ण रूप से बढ़ाना है। पहले की तुलना में, जो विशाल कंप्यूटिंग शक्ति या जटिल एल्गोरिदम पर निर्भर करते थे, S1 विधि ने परीक्षण के समय मॉडल के गणनात्मक संसाधनों के आवंटन को नियंत्रित करके प्रदर्शन में एक छलांग हासिल की है।
S1 विधि ने पहले एक छोटे डेटा सेट को सावधानीपूर्वक बनाया, जिसे s1K कहा जाता है, जिसमें 1000 उच्च गुणवत्ता वाले तर्क प्रश्न शामिल हैं। इस डेटा सेट के चयन मानदंड बहुत सख्त हैं, और इसे कठिनाई, विविधता और गुणवत्ता के तीन शर्तों को एक साथ पूरा करना चाहिए। शोध दल ने इन तीन मानदंडों के महत्व की पुष्टि के लिए विस्तृत अपघटन प्रयोग किए, और परिणामों ने दिखाया कि यादृच्छिक चयन या केवल एकल मानदंड पर ध्यान केंद्रित करने से प्रदर्शन में भारी गिरावट आएगी। यह उल्लेखनीय है कि 59,000 नमूनों वाले सुपरसेट का उपयोग करके प्रशिक्षण करने पर भी, इसका प्रभाव सावधानीपूर्वक चुने गए 1000 नमूनों के मुकाबले बहुत कम था, जो डेटा चयन की महत्वपूर्णता को उजागर करता है।
मॉडल प्रशिक्षण के पूरा होने के बाद, शोधकर्ताओं ने परीक्षण के समय गणना की मात्रा को नियंत्रित करने के लिए "बजट फोर्सिंग" नामक एक तकनीक का उपयोग किया। सरल शब्दों में, यह विधि मॉडल के विचार प्रक्रिया को मजबूरन समाप्त करने या "रुकें" निर्देश जोड़ने के माध्यम से मॉडल के विचार समय को बढ़ाती है, जिससे मॉडल को अधिक गहन अन्वेषण और सत्यापन के लिए मार्गदर्शन मिलता है। इस तरीके से, मॉडल तर्क कदमों की पुनरावृत्ति कर सकता है और प्रभावी रूप से गलतियों को सुधार सकता है।
प्रयोगात्मक परिणामों से पता चला है कि s1K डेटा सेट पर माइक्रो-ट्यूनिंग और "बजट फोर्सिंग" तकनीक के लाभ के साथ, s1-32B मॉडल प्रतियोगिता स्तर के गणितीय समस्याओं पर OpenAI के o1-preview मॉडल से 27% बेहतर प्रदर्शन करता है। और भी आश्चर्यजनक बात यह है कि "बजट फोर्सिंग" के माध्यम से स्केलिंग करते समय, s1-32B मॉडल ने अपने प्रशिक्षण स्तर से परे सामान्यीकरण क्षमता दिखाई, AIME24 परीक्षण सेट पर स्कोर 50% से बढ़कर 57% हो गया।
इस शोध का मुख्य योगदान यह है कि यह उच्च तर्क क्षमता वाले डेटा सेट बनाने के लिए एक सरल और प्रभावी विधि प्रदान करता है, और परीक्षण के समय प्रदर्शन स्केलिंग को सक्षम बनाता है। इस आधार पर, शोध दल ने s1-32B मॉडल का निर्माण किया, जिसका प्रदर्शन बंद स्रोत मॉडल के बराबर या उससे बेहतर है, जबकि यह ओपन-सोर्स और उच्च नमूना दक्षता भी है। इस शोध का कोड, मॉडल और डेटा GitHub पर ओपन-सोर्स किया गया है।
शोधकर्ताओं ने डेटा के सूक्ष्म पहलुओं और परीक्षण समय स्केलिंग तकनीक पर भी गहन अपघटन प्रयोग किए। डेटा के संदर्भ में, उन्होंने पाया कि कठिनाई, विविधता और गुणवत्ता को एक साथ विचार करना अत्यंत महत्वपूर्ण है। परीक्षण समय स्केलिंग के संदर्भ में, "बजट फोर्सिंग" विधि ने उत्कृष्ट नियंत्रण और प्रदर्शन में सुधार दिखाया। इस शोध ने समानांतर स्केलिंग और अनुक्रमिक स्केलिंग के दो अलग-अलग तरीकों की भी जांच की और REBASE जैसे उन्नत तकनीकों को पेश किया, जो भविष्य के शोध दिशा के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करती है।
यह शोध न केवल AI प्रशिक्षण क्षेत्र में एक कम लागत, उच्च लाभ का नया दृष्टिकोण लाता है, बल्कि व्यापक AI अनुप्रयोगों के लिए एक ठोस आधार भी प्रदान करता है।
पेपर का पता: https://arxiv.org/pdf/2501.19393