झीपु AI ने चीनी बड़े भाषा मॉडल (LLM) के लिए विशेष रूप से विकसित एक संरेखण मूल्यांकन मानक AlignBench जारी किया है, जो वर्तमान में चीनी बड़े मॉडल के लिए पहला मूल्यांकन मानक है। यह मॉडल और मानव इरादों के संरेखण स्तर का कई आयामों में विस्तार से मूल्यांकन करने में सक्षम है। AlignBench का डेटा सेट वास्तविक उपयोग परिदृश्यों से लिया गया है, जिसमें प्रारंभिक निर्माण, संवेदनशीलता筛查, संदर्भ उत्तर निर्माण और कठिनाई चयन जैसे चरण शामिल हैं, जो इसकी प्रामाणिकता और चुनौती को सुनिश्चित करते हैं। डेटा सेट को 8 बड़े श्रेणियों में विभाजित किया गया है, जिसमें ज्ञान प्रश्नोत्तरी, लेखन निर्माण, भूमिका निभाना आदि जैसे विभिन्न प्रकार के प्रश्न शामिल हैं। स्वचालन और पुनरुत्पादकता को प्राप्त करने के लिए, AlignBench ने प्रत्येक मॉडल के उत्तरों को स्कोर करने के लिए स्कोरिंग मॉडल (जैसे GPT-4 और CritiqueLLM) का उपयोग किया है, जो उनके उत्तर की गुणवत्ता का प्रतिनिधित्व करता है। स्कोरिंग मॉडल में बहुआयामी, नियम कैलिब्रेटेड स्कोरिंग विधियाँ हैं, जो मॉडल स्कोरिंग और मानव स्कोरिंग की संगति को बढ़ाती हैं, और विस्तृत मूल्यांकन विश्लेषण और मूल्यांकन स्कोर प्रदान करती हैं। डेवलपर्स AlignBench का उपयोग करके मूल्यांकन कर सकते हैं, और उच्च मूल्यांकन क्षमता वाले स्कोरिंग मॉडल (जैसे GPT-4 या CritiqueLLM) का उपयोग करके स्कोर कर सकते हैं। AlignBench वेबसाइट के माध्यम से, परिणामों को मूल्यांकन के लिए CritiqueLLM को स्कोरिंग मॉडल के रूप में उपयोग किया जा सकता है, और लगभग 5 मिनट में मूल्यांकन परिणाम प्राप्त किए जा सकते हैं।
जेडीपीयू एआई ने चाइनीज़ LLM संगतता मूल्यांकन मानक AlignBench जारी किया

站长之家
264
© सर्वाधिकार सुरक्षित AIbase बेस 2024, स्रोत देखने के लिए क्लिक करें - https://www.aibase.com/in/news/4106