कुनलुन वानवे टेक्नोलॉजी कंपनी लिमिटेड ने हाल ही में घोषणा की है कि कंपनी द्वारा विकसित दो नए पुरस्कार मॉडल Skywork-Reward-Gemma-2-27B और Skywork-Reward-Llama-3.1-8B अंतरराष्ट्रीय स्तर पर मान्यता प्राप्त पुरस्कार मॉडल मूल्यांकन मानक RewardBench पर उत्कृष्ट प्रदर्शन कर रहे हैं, जिनमें से Skywork-Reward-Gemma-2-27B मॉडल ने पहले स्थान पर आकर RewardBench की आधिकारिक मान्यता प्राप्त की है।

पुरस्कार मॉडल मजबूत सीखने में केंद्रीय भूमिका निभाते हैं, विभिन्न स्थितियों में एजेंट के प्रदर्शन का मूल्यांकन करते हैं और एजेंट की सीखने की प्रक्रिया को मार्गदर्शित करने के लिए पुरस्कार संकेत प्रदान करते हैं, जिससे वह विशेष वातावरण में सर्वोत्तम विकल्प बना सके। बड़े भाषा मॉडल के प्रशिक्षण में, पुरस्कार मॉडल की भूमिका विशेष रूप से महत्वपूर्ण होती है, जो मॉडल को मानव प्राथमिकताओं के अनुसार सामग्री को अधिक सटीकता से समझने और उत्पन्न करने में मदद करती है।

微信截图_20240913083436.png

RewardBench एक विशेष परीक्षण सूची है जो बड़े भाषा मॉडल में पुरस्कार मॉडल की प्रभावशीलता का मूल्यांकन करती है, जिसमें संवाद, तर्क और सुरक्षा जैसे क्षेत्रों में मॉडल का समग्र मूल्यांकन करने के लिए कई कार्य शामिल हैं। इस सूची के परीक्षण डेटा सेट में संकेत शब्द, चयनित प्रतिक्रियाएँ और अस्वीकृत प्रतिक्रियाएँ शामिल हैं, जो यह परीक्षण करने के लिए उपयोग किया जाता है कि क्या पुरस्कार मॉडल दिए गए संकेत शब्द के मामले में चयनित प्रतिक्रिया को सही ढंग से अस्वीकृत प्रतिक्रिया से पहले रख सकता है।

कुनलुन वानवे का Skywork-Reward मॉडल सावधानीपूर्वक चुने गए प्राथमिकता डेटा सेट और अपेक्षाकृत छोटे आधार मॉडल के साथ विकसित किया गया है, और मौजूदा पुरस्कार मॉडलों की तुलना में, इसके प्राथमिकता डेटा केवल सार्वजनिक इंटरनेट डेटा से प्राप्त होते हैं, और विशिष्ट चयन रणनीतियों के माध्यम से उच्च गुणवत्ता वाले प्राथमिकता डेटा सेट प्राप्त किए जाते हैं। ये डेटा सुरक्षा, गणित और कोड जैसे व्यापक विषयों को कवर करते हैं और मैन्युअल रूप से सत्यापित होते हैं, जिससे डेटा की वस्तुनिष्ठता और पुरस्कार अंतर की महत्वता सुनिश्चित होती है।

परीक्षण के बाद, कुनलुन वानवे का पुरस्कार मॉडल संवाद, सुरक्षा आदि क्षेत्रों में उत्कृष्ट प्रदर्शन दिखाता है, विशेष रूप से कठिन नमूनों का सामना करते समय, केवल Skywork-Reward-Gemma-2-27B मॉडल ने सही भविष्यवाणी की। यह उपलब्धि कुनलुन वानवे की वैश्विक एआई क्षेत्र में तकनीकी क्षमता और नवाचार की क्षमता का प्रतीक है, साथ ही एआई तकनीक के विकास और अनुप्रयोग के लिए नई संभावनाएँ प्रदान करती है।

27B मॉडल का पता:

https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B मॉडल का पता:

https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B