हाल ही में, गूगल DeepMind की अनुसंधान टीम ने कई विश्वविद्यालयों के साथ मिलकर एक नई विधि पेश की है, जिसे जनरेटिव रिवॉर्ड मॉडल (GenRM) कहा जाता है, जिसका उद्देश्य जनरेटिव एआई की तर्क कार्यों में सटीकता और विश्वसनीयता को बढ़ाना है।
जनरेटिव एआई का उपयोग प्राकृतिक भाषा प्रसंस्करण जैसे कई क्षेत्रों में किया जाता है, जो मुख्य रूप से शब्दों की एक श्रृंखला में अगला शब्द अनुमानित करके सुसंगत पाठ उत्पन्न करता है। हालांकि, ये मॉडल कभी-कभी आत्मविश्वास से गलत जानकारी प्रदान करते हैं, विशेष रूप से शिक्षा, वित्त और स्वास्थ्य जैसे क्षेत्रों में जहां सटीकता की अत्यधिक आवश्यकता होती है, यह निश्चित रूप से एक बड़ा मुद्दा है।
वर्तमान में, जनरेटिव एआई मॉडल द्वारा आउटपुट सटीकता में आने वाली कठिनाइयों के लिए, शोधकर्ताओं ने विभिन्न समाधानों का प्रयास किया है। इनमें से, डिस्क्रिमिनेटिव रिवॉर्ड मॉडल (RMs) का उपयोग संभावित उत्तरों की सटीकता का मूल्यांकन करने के लिए स्कोर के आधार पर किया गया है, लेकिन यह विधि बड़े भाषा मॉडल (LLMs) की जनरेटिव क्षमता का पूरी तरह से लाभ नहीं उठा पाई है। एक और सामान्य विधि है "LLM को न्यायाधीश के रूप में उपयोग करना", लेकिन जटिल तर्क कार्यों को हल करने में, यह विधि अक्सर पेशेवर वेरिफायर की तुलना में कम प्रभावी होती है।
GenRM की नवाचार यह है कि यह सत्यापन प्रक्रिया को अगला शब्द भविष्यवाणी कार्य के रूप में फिर से परिभाषित करता है। इसका मतलब है कि पारंपरिक डिस्क्रिमिनेटिव रिवॉर्ड मॉडल के विपरीत, GenRM LLMs की पाठ उत्पन्न करने की क्षमता को सत्यापन प्रक्रिया में शामिल करता है, जिससे मॉडल संभावित समाधानों को एक साथ उत्पन्न और मूल्यांकन कर सकता है। इसके अतिरिक्त, GenRM श्रृंखलाबद्ध तर्क (CoT) का समर्थन करता है, जिसका अर्थ है कि मॉडल अंतिम निष्कर्ष पर पहुंचने से पहले मध्यवर्ती तर्क चरण उत्पन्न कर सकता है, जिससे सत्यापन प्रक्रिया अधिक व्यापक और प्रणालीबद्ध हो जाती है।
उत्पादन और सत्यापन को जोड़कर, GenRM विधि एक एकीकृत प्रशिक्षण रणनीति अपनाती है, जिससे मॉडल प्रशिक्षण प्रक्रिया में उत्पन्न और सत्यापन दोनों क्षमताओं को एक साथ बढ़ा सकता है। वास्तविक अनुप्रयोग में, मॉडल मध्यवर्ती तर्क चरण उत्पन्न करेगा, जो अंतिम उत्तर की सत्यापन के लिए उपयोग किए जाएंगे।
शोधकर्ताओं ने पाया कि GenRM मॉडल कई कठोर परीक्षणों में उत्कृष्ट प्रदर्शन करता है, जैसे कि प्री-स्कूल गणित और एल्गोरिदम समस्या समाधान कार्यों में, GenRM की सटीकता में उल्लेखनीय वृद्धि हुई है। डिस्क्रिमिनेटिव रिवॉर्ड मॉडल और LLM को न्यायाधीश के रूप में उपयोग करने की विधियों की तुलना में, GenRM की समस्या समाधान की सफलता दर 16% से 64% तक बढ़ गई है।
उदाहरण के लिए, Gemini1.0Pro मॉडल के आउटपुट का सत्यापन करते समय, GenRM ने समस्या समाधान की सफलता दर को 73% से 92.8% तक बढ़ा दिया।
GenRM विधि का लॉन्च जनरेटिव एआई क्षेत्र में एक बड़ी प्रगति का प्रतीक है, जो समाधान उत्पन्न करने और सत्यापन को एक प्रक्रिया में एकीकृत करके, एआई द्वारा उत्पन्न समाधानों की सटीकता और विश्वसनीयता को महत्वपूर्ण रूप से बढ़ाता है।
मुख्य बिंदु:
1. 🌟 GenRM ने सत्यापन प्रक्रिया को अगला शब्द भविष्यवाणी कार्य के रूप में फिर से परिभाषित करके जनरेटिव एआई की तर्क क्षमता को बढ़ाया है।
2. 📈 GenRM ने कई परीक्षणों में उत्कृष्ट प्रदर्शन किया, पारंपरिक विधियों की तुलना में सटीकता में 16% से 64% तक सुधार किया।
3. 🧠 यह विधि उत्पादन और सत्यापन को एकीकृत करती है, उच्च जोखिम वाले क्षेत्रों में एआई के अनुप्रयोग की क्षमता को बढ़ाती है।