गूगल DeepMind अनुसंधान टीम ने हाल ही में एक महत्वपूर्ण突破 हासिल किया है, एक अभिनव तकनीक विकसित की है जिसे SCoRe (Self-Correction through Reinforcement Learning, सुदृढ़ीकरण शिक्षण के माध्यम से आत्म-सुधार) कहा जाता है। यह तकनीक बड़े भाषा मॉडल (LLM) द्वारा आत्म-सुधार की दीर्घकालिक चुनौती को हल करने के लिए डिज़ाइन की गई है, बिना कई मॉडलों या बाहरी जांच पर निर्भर हुए त्रुटियों की पहचान और सुधार करने के लिए।
SCoRe तकनीक का核心 इसकी दो चरणों की विधि में है। पहले चरण में मॉडल की प्रारंभिक स्थिति का अनुकूलन किया जाता है, ताकि यह दूसरी बार प्रयास करने पर सुधार उत्पन्न कर सके, जबकि प्रारंभिक प्रतिक्रिया को मूल मॉडल के समान बनाए रखा जा सके। दूसरे चरण में बहु-चरण सुदृढ़ीकरण शिक्षण का उपयोग किया जाता है, जो मॉडल को पहले और दूसरे उत्तर में सुधार करने के लिए प्रशिक्षित करता है। इस विधि की विशेषता यह है कि यह केवल स्वयं-निर्मित प्रशिक्षण डेटा का उपयोग करती है, मॉडल समस्याओं को हल करके और समाधान में सुधार करने का प्रयास करके अपने उदाहरण बनाता है।
व्यवहारिक परीक्षण में, SCoRe ने महत्वपूर्ण प्रदर्शन सुधार दिखाया है। Google के Gemini1.0Pro और 1.5Flash मॉडल का उपयोग करके किए गए परीक्षणों ने MATH मानक परीक्षण के गणितीय तर्क कार्य में आत्म-सुधार की क्षमता में 15.6 प्रतिशत की वृद्धि दिखाई है। HumanEval के कोड जनरेशन कार्य में प्रदर्शन में 9.1 प्रतिशत का सुधार हुआ है। ये परिणाम दर्शाते हैं कि SCoRe AI मॉडल की आत्म-सुधार क्षमता को बढ़ाने में महत्वपूर्ण प्रगति कर रहा है।
अनुसंधानकर्ताओं ने जोर दिया है कि SCoRe पहला ऐसा तरीका है जो अर्थपूर्ण सकारात्मक आंतरिक आत्म-सुधार को लागू करता है, जिससे मॉडल बाहरी फीडबैक के बिना उत्तरों में सुधार कर सकता है। हालाँकि, वर्तमान संस्करण का SCoRe केवल एक दौर की आत्म-सुधार प्रशिक्षण करता है, भविष्य के अनुसंधान में कई सुधार चरणों की संभावनाओं का अन्वेषण किया जा सकता है।
DeepMind टीम का यह अनुसंधान एक महत्वपूर्ण अंतर्दृष्टि प्रकट करता है: आत्म-सुधार जैसी मेटा रणनीतियों को सिखाने के लिए मानक भाषा मॉडल प्रशिक्षण विधियों से परे जाने की आवश्यकता है। बहु-चरण सुदृढ़ीकरण शिक्षण AI क्षेत्र में नई संभावनाएँ खोलता है, जिससे अधिक बुद्धिमान और विश्वसनीय AI सिस्टम के विकास को बढ़ावा मिलने की उम्मीद है।
यह प्रगतिशील तकनीक न केवल AI के आत्म-सुधार की क्षमता को प्रदर्शित करती है, बल्कि बड़े भाषा मॉडल की विश्वसनीयता और सटीकता के मुद्दों को हल करने के लिए नए दृष्टिकोण भी प्रदान करती है, जो भविष्य के AI अनुप्रयोगों के विकास पर गहरा प्रभाव डाल सकती है।