हाल ही में, ज़ीपु AI ने एक उच्च गुणवत्ता और कम लागत वाला स्कोरिंग मॉडल CritiqueLLM जारी किया है, जिसका उपयोग पाठ उत्पन्न करने वाले मॉडलों के प्रदर्शन का मूल्यांकन करने के लिए किया जाता है। पारंपरिक मूल्यांकन मीट्रिक जैसे BLEU और ROUGE मुख्य रूप से n-gram संगतता पर आधारित होते हैं, जो स्कोर की गणना करते हैं, लेकिन समग्र अर्थ को समझने में कमी होती है। जबकि मॉडल-आधारित मूल्यांकन विधियाँ आधार मॉडल के चयन पर बहुत निर्भर करती हैं, केवल शीर्ष स्तर के बड़े मॉडल ही संतोषजनक परिणाम प्राप्त कर सकते हैं। इन समस्याओं को हल करने के लिए, CritiqueLLM ने एक व्याख्यायित और विस्तारीय पाठ गुणवत्ता मूल्यांकन मॉडल प्रस्तुत किया है। यह विभिन्न कार्यों के लिए उच्च गुणवत्ता के स्कोर और मूल्यांकन व्याख्या उत्पन्न कर सकता है। संदर्भ पाठ के साथ दृश्यों में, CritiqueLLM बड़े मॉडल द्वारा उत्पन्न पाठ और संदर्भ पाठ की तुलना करता है और स्कोर प्रदान करता है। 8 प्रकार के सामान्य कार्यों में, CritiqueLLM के मूल्यांकन स्कोर का मानव स्कोरिंग के साथ संबंध अन्य मॉडलों की तुलना में महत्वपूर्ण रूप से अधिक है, विशेष रूप से बिना संदर्भ पाठ सेटिंग में, CritiqueLLM ने 3 कार्यों पर GPT-4 को पार किया, जिससे सर्वोत्तम मूल्यांकन प्रदर्शन प्राप्त हुआ। CritiqueLLM की विधि में चार मुख्य चरण शामिल हैं: उपयोगकर्ता पूछताछ संवर्धन, संदर्भ पाठ मूल्यांकन डेटा संग्रह, बिना संदर्भ पाठ मूल्यांकन डेटा पुनर्लेखन और CritiqueLLM मॉडल का प्रशिक्षण। इन चरणों के माध्यम से, संदर्भ पाठ और बिना संदर्भ पाठ सेटिंग के लिए उपयुक्त दो CritiqueLLM मॉडल प्राप्त किए जा सकते हैं, जो पाठ उत्पन्न करने वाले मॉडलों के प्रदर्शन का मूल्यांकन करने के लिए उपयोग किए जाते हैं।