आज के युग में, प्राकृतिक भाषा प्रसंस्करण (NLP) क्षेत्र तेजी से विकसित हो रहा है, बड़े भाषा मॉडल (LLMs) जटिल भाषा-संबंधित कार्यों को उच्च सटीकता के साथ निष्पादित कर सकते हैं, जिससे मानव- मशीन इंटरैक्शन में और अधिक संभावनाएँ उत्पन्न होती हैं। हालाँकि, NLP में एक प्रमुख समस्या है, जो है मॉडल मूल्यांकन की मानव एनोटेशन पर निर्भरता।

मानव द्वारा उत्पन्न डेटा मॉडल के प्रशिक्षण और मान्यता के लिए महत्वपूर्ण है, लेकिन इन डेटा को इकट्ठा करना महंगा और समय लेने वाला होता है। और, जैसे-जैसे मॉडल में सुधार होता है, पहले इकट्ठा की गई एनोटेशन को अपडेट करने की आवश्यकता हो सकती है, जिससे नए मॉडल का मूल्यांकन करते समय इसकी उपयोगिता कम हो जाती है, जिससे नए डेटा को निरंतर प्राप्त करने की आवश्यकता होती है, जो प्रभावी मॉडल मूल्यांकन के पैमाने और स्थिरता में चुनौती प्रस्तुत करता है।

image.png

Meta FAIR के शोधकर्ताओं ने एक नया समाधान प्रस्तुत किया है - "Self-Taught Evaluator" (स्व-शिक्षित मूल्यांकनकर्ता)। यह विधि मानव एनोटेशन की आवश्यकता के बिना काम करती है, बल्कि प्रशिक्षण के लिए संश्लेषित उत्पन्न डेटा का उपयोग करती है। पहले बीज मॉडल के माध्यम से तुलना के लिए संश्लेषित प्राथमिकताओं के जोड़े उत्पन्न किए जाते हैं, फिर मॉडल इन जोड़ों का मूल्यांकन करता है और प्रदर्शन में सुधार के लिए अपने निर्णय का उपयोग करता है, जिससे मानव-जनित एनोटेशन पर निर्भरता काफी कम हो जाती है।

शोधकर्ताओं ने "स्व-शिक्षित मूल्यांकनकर्ता" के प्रदर्शन का परीक्षण Llama-3-70B-Instruct मॉडल का उपयोग करके किया। इस विधि ने RewardBench बेंचमार्क पर मॉडल की सटीकता को 75.4 से बढ़ाकर 88.7 तक पहुँचाया, जो मानव एनोटेशन के प्रशिक्षण वाले मॉडल के प्रदर्शन को भी पार कर गया। कई बार पुनरावृत्ति के बाद, अंतिम मॉडल ने एकल अनुमान में 88.3 की सटीकता प्राप्त की, जबकि बहुसंख्यक मतदान में 88.7 तक पहुँच गया, जो इसकी मजबूत स्थिरता और विश्वसनीयता को प्रदर्शित करता है।

"स्व-शिक्षित मूल्यांकनकर्ता" NLP मॉडल मूल्यांकन के लिए एक स्केलेबल और कुशल समाधान प्रदान करता है, संश्लेषित डेटा और पुनरावृत्ति आत्म-सुधार का उपयोग करते हुए मानव एनोटेशन पर निर्भरता की चुनौती का सामना करता है, और भाषा मॉडल के विकास को आगे बढ़ाता है।

पत्र का पता: https://arxiv.org/abs/2408.02666

मुख्य बिंदु:

- 😃NLP मॉडल मूल्यांकन मानव एनोटेशन पर निर्भर करता है, डेटा एकत्र करने की लागत उच्च, समय लेने वाली और उपयोगिता में कमी की समस्या है।

- 🤖Meta FAIR ने "स्व-शिक्षित मूल्यांकनकर्ता" पेश किया, जो संश्लेषित डेटा का उपयोग करके प्रशिक्षण करता है, मानव एनोटेशन पर निर्भरता को कम करता है।

- 💪"स्व-शिक्षित मूल्यांकनकर्ता" का प्रदर्शन उत्कृष्ट है, परीक्षण में मॉडल की सटीकता में महत्वपूर्ण सुधार करता है, और स्थिरता और विश्वसनीयता का प्रदर्शन करता है।