हाल ही में, ज़ीपु AI ने एक उच्च गुणवत्ता और कम लागत वाला स्कोरिंग मॉडल CritiqueLLM जारी किया है, जिसका उपयोग पाठ उत्पन्न करने वाले मॉडलों के प्रदर्शन का मूल्यांकन करने के लिए किया जाता है। पारंपरिक मूल्यांकन मीट्रिक जैसे BLEU और ROUGE मुख्य रूप से n-gram संगतता पर आधारित होते हैं, जो स्कोर की गणना करते हैं, लेकिन समग्र अर्थ को समझने में कमी होती है। जबकि मॉडल-आधारित मूल्यांकन विधियाँ आधार मॉडल के चयन पर बहुत निर्भर करती हैं, केवल शीर्ष स्तर के बड़े मॉडल ही संतोषजनक परिणाम प्राप्त कर सकते हैं। इन समस्याओं को हल करने के लिए, CritiqueLLM ने एक व्याख्यायित और विस्तारीय पाठ गुणवत्ता मूल्यांकन मॉडल प्रस्तुत किया है। यह विभिन्न कार्यों के लिए उच्च गुणवत्ता के स्कोर और मूल्यांकन व्याख्या उत्पन्न कर सकता है। संदर्भ पाठ के साथ दृश्यों में, CritiqueLLM बड़े मॉडल द्वारा उत्पन्न पाठ और संदर्भ पाठ की तुलना करता है और स्कोर प्रदान करता है। 8 प्रकार के सामान्य कार्यों में, CritiqueLLM के मूल्यांकन स्कोर का मानव स्कोरिंग के साथ संबंध अन्य मॉडलों की तुलना में महत्वपूर्ण रूप से अधिक है, विशेष रूप से बिना संदर्भ पाठ सेटिंग में, CritiqueLLM ने 3 कार्यों पर GPT-4 को पार किया, जिससे सर्वोत्तम मूल्यांकन प्रदर्शन प्राप्त हुआ। CritiqueLLM की विधि में चार मुख्य चरण शामिल हैं: उपयोगकर्ता पूछताछ संवर्धन, संदर्भ पाठ मूल्यांकन डेटा संग्रह, बिना संदर्भ पाठ मूल्यांकन डेटा पुनर्लेखन और CritiqueLLM मॉडल का प्रशिक्षण। इन चरणों के माध्यम से, संदर्भ पाठ और बिना संदर्भ पाठ सेटिंग के लिए उपयुक्त दो CritiqueLLM मॉडल प्राप्त किए जा सकते हैं, जो पाठ उत्पन्न करने वाले मॉडलों के प्रदर्शन का मूल्यांकन करने के लिए उपयोग किए जाते हैं।
ज़ेने AI ने CritiqueLLM स्कोरिंग मॉडल जारी किया, जो टेक्स्ट जनरेशन मॉडल के प्रदर्शन का मूल्यांकन कर सकता है

站长之家
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।