झीपु AI ने चीनी बड़े भाषा मॉडल (LLM) के लिए विशेष रूप से विकसित एक संरेखण मूल्यांकन मानक AlignBench जारी किया है, जो वर्तमान में चीनी बड़े मॉडल के लिए पहला मूल्यांकन मानक है। यह मॉडल और मानव इरादों के संरेखण स्तर का कई आयामों में विस्तार से मूल्यांकन करने में सक्षम है। AlignBench का डेटा सेट वास्तविक उपयोग परिदृश्यों से लिया गया है, जिसमें प्रारंभिक निर्माण, संवेदनशीलता筛查, संदर्भ उत्तर निर्माण और कठिनाई चयन जैसे चरण शामिल हैं, जो इसकी प्रामाणिकता और चुनौती को सुनिश्चित करते हैं। डेटा सेट को 8 बड़े श्रेणियों में विभाजित किया गया है, जिसमें ज्ञान प्रश्नोत्तरी, लेखन निर्माण, भूमिका निभाना आदि जैसे विभिन्न प्रकार के प्रश्न शामिल हैं। स्वचालन और पुनरुत्पादकता को प्राप्त करने के लिए, AlignBench ने प्रत्येक मॉडल के उत्तरों को स्कोर करने के लिए स्कोरिंग मॉडल (जैसे GPT-4 और CritiqueLLM) का उपयोग किया है, जो उनके उत्तर की गुणवत्ता का प्रतिनिधित्व करता है। स्कोरिंग मॉडल में बहुआयामी, नियम कैलिब्रेटेड स्कोरिंग विधियाँ हैं, जो मॉडल स्कोरिंग और मानव स्कोरिंग की संगति को बढ़ाती हैं, और विस्तृत मूल्यांकन विश्लेषण और मूल्यांकन स्कोर प्रदान करती हैं। डेवलपर्स AlignBench का उपयोग करके मूल्यांकन कर सकते हैं, और उच्च मूल्यांकन क्षमता वाले स्कोरिंग मॉडल (जैसे GPT-4 या CritiqueLLM) का उपयोग करके स्कोर कर सकते हैं। AlignBench वेबसाइट के माध्यम से, परिणामों को मूल्यांकन के लिए CritiqueLLM को स्कोरिंग मॉडल के रूप में उपयोग किया जा सकता है, और लगभग 5 मिनट में मूल्यांकन परिणाम प्राप्त किए जा सकते हैं।
जेडीपीयू एआई ने चाइनीज़ LLM संगतता मूल्यांकन मानक AlignBench जारी किया

站长之家
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।