【अध्ययन ने उलट दिया है】
चीन के Tsinghua विश्वविद्यालय और शंघाई Jiaotong विश्वविद्यालय द्वारा संयुक्त रूप से प्रकाशित नवीनतम शोध पत्र ने इस क्षेत्र में व्यापक रूप से स्वीकृत विचार "शुद्ध सुदृढीकरण अधिगम (RL) बड़े मॉडल की तर्क क्षमता को बढ़ा सकता है" को चुनौती दी है। अध्ययन में पाया गया है कि कुछ कार्यों में सुदृढीकरण अधिगम को शामिल करने वाले मॉडल का प्रदर्शन, सुदृढीकरण अधिगम का उपयोग नहीं करने वाले मूल मॉडल से भी कम होता है।
【प्रयोगात्मक सत्यापन】
अनुसंधान दल ने गणित, कोडिंग और दृश्य तर्क के तीन प्रमुख क्षेत्रों में एक व्यवस्थित प्रयोग किया:
- गणितीय कार्य: GSM8K, MATH500 आदि बेंचमार्क परीक्षणों में, RL मॉडल कम नमूना संख्याओं (k मान) पर सटीकता में वृद्धि दर्शाते हैं, लेकिन उच्च k मानों पर कवरेज दर में उल्लेखनीय गिरावट आती है।
- कोडिंग कार्य: HumanEval+ आदि परीक्षणों में RLVR प्रशिक्षित मॉडल का सिंगल-सैंपल pass@1 स्कोर में सुधार हुआ है, लेकिन उच्च नमूना संख्या (k=128) पर कवरेज दर में गिरावट आई है।
- दृश्य तर्क: बहु-मोडल कार्यों में Qwen-2.5-VL-7B मॉडल का प्रदर्शन सुसंगत है, RL ने इसकी मूल समस्या-समाधान रणनीति को नहीं बदला है।
【अकादमिक विवाद】
अध्ययन के परिणामों ने अकादमिक क्षेत्र में गहन चर्चा को जन्म दिया है:
- समर्थक मानते हैं कि RL ने नमूना दक्षता में सुधार किया है लेकिन तर्क क्षमता के विकास को सीमित कर दिया है।
- विरोधी तर्क देते हैं कि यह पुरस्कार संरचना में दोष है, न कि RL स्वयं में।
- तटस्थ दृष्टिकोण सुझाव देते हैं कि तर्क को बढ़ाने के लिए आसवन जैसी अन्य विधियों को जोड़ा जाए।
【मूलभूत विचार】
अनुसंधान दल ने एक महत्वपूर्ण अंतर प्रस्तुत किया है:
- क्षमता: समस्या को हल करने की मॉडल की क्षमता और तार्किक श्रृंखला।
- दक्षता: दी गई क्षमता के भीतर उत्तर प्राप्त करने की गति और स्थिरता।
सुदृढीकरण अधिगम "क्षमता निर्माता" के बजाय "क्षमता नियामक" की तरह अधिक है, यह मॉडल को पहले से ज्ञात कार्यों को बेहतर ढंग से करने में सक्षम बनाता है, लेकिन नए तर्क पथ विकसित करने में सक्षम नहीं है।
【उद्योग के लिए निहितार्थ】
यह अध्ययन बड़े मॉडल RL प्रशिक्षण के अति उत्साह पर एक चेतावनी है, यह उद्योग को सचेत करता है:
- मूल मॉडल की अभिव्यक्ति क्षमता और ज्ञान संगठन पर अधिक ध्यान दें।
- क्षमता वृद्धि और दक्षता अनुकूलन के लक्ष्यों के बीच स्पष्ट अंतर करें।
- तर्क क्षमता के मूल्यांकन के लिए एक अधिक वैज्ञानिक प्रणाली स्थापित करें।