कुनलुन वानवे टेक्नोलॉजी कंपनी लिमिटेड ने हाल ही में घोषणा की है कि कंपनी द्वारा विकसित दो नए पुरस्कार मॉडल Skywork-Reward-Gemma-2-27B और Skywork-Reward-Llama-3.1-8B अंतरराष्ट्रीय स्तर पर मान्यता प्राप्त पुरस्कार मॉडल मूल्यांकन मानक RewardBench पर उत्कृष्ट प्रदर्शन कर रहे हैं, जिनमें से Skywork-Reward-Gemma-2-27B मॉडल ने पहले स्थान पर आकर RewardBench की आधिकारिक मान्यता प्राप्त की है।
पुरस्कार मॉडल मजबूत सीखने में केंद्रीय भूमिका निभाते हैं, विभिन्न स्थितियों में एजेंट के प्रदर्शन का मूल्यांकन करते हैं और एजेंट की सीखने की प्रक्रिया को मार्गदर्शित करने के लिए पुरस्कार संकेत प्रदान करते हैं, जिससे वह विशेष वातावरण में सर्वोत्तम विकल्प बना सके। बड़े भाषा मॉडल के प्रशिक्षण में, पुरस्कार मॉडल की भूमिका विशेष रूप से महत्वपूर्ण होती है, जो मॉडल को मानव प्राथमिकताओं के अनुसार सामग्री को अधिक सटीकता से समझने और उत्पन्न करने में मदद करती है।
RewardBench एक विशेष परीक्षण सूची है जो बड़े भाषा मॉडल में पुरस्कार मॉडल की प्रभावशीलता का मूल्यांकन करती है, जिसमें संवाद, तर्क और सुरक्षा जैसे क्षेत्रों में मॉडल का समग्र मूल्यांकन करने के लिए कई कार्य शामिल हैं। इस सूची के परीक्षण डेटा सेट में संकेत शब्द, चयनित प्रतिक्रियाएँ और अस्वीकृत प्रतिक्रियाएँ शामिल हैं, जो यह परीक्षण करने के लिए उपयोग किया जाता है कि क्या पुरस्कार मॉडल दिए गए संकेत शब्द के मामले में चयनित प्रतिक्रिया को सही ढंग से अस्वीकृत प्रतिक्रिया से पहले रख सकता है।
कुनलुन वानवे का Skywork-Reward मॉडल सावधानीपूर्वक चुने गए प्राथमिकता डेटा सेट और अपेक्षाकृत छोटे आधार मॉडल के साथ विकसित किया गया है, और मौजूदा पुरस्कार मॉडलों की तुलना में, इसके प्राथमिकता डेटा केवल सार्वजनिक इंटरनेट डेटा से प्राप्त होते हैं, और विशिष्ट चयन रणनीतियों के माध्यम से उच्च गुणवत्ता वाले प्राथमिकता डेटा सेट प्राप्त किए जाते हैं। ये डेटा सुरक्षा, गणित और कोड जैसे व्यापक विषयों को कवर करते हैं और मैन्युअल रूप से सत्यापित होते हैं, जिससे डेटा की वस्तुनिष्ठता और पुरस्कार अंतर की महत्वता सुनिश्चित होती है।
परीक्षण के बाद, कुनलुन वानवे का पुरस्कार मॉडल संवाद, सुरक्षा आदि क्षेत्रों में उत्कृष्ट प्रदर्शन दिखाता है, विशेष रूप से कठिन नमूनों का सामना करते समय, केवल Skywork-Reward-Gemma-2-27B मॉडल ने सही भविष्यवाणी की। यह उपलब्धि कुनलुन वानवे की वैश्विक एआई क्षेत्र में तकनीकी क्षमता और नवाचार की क्षमता का प्रतीक है, साथ ही एआई तकनीक के विकास और अनुप्रयोग के लिए नई संभावनाएँ प्रदान करती है।
27B मॉडल का पता:
https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B
8B मॉडल का पता:
https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B