हाल ही में, अलीबाबा Qwen टीम के शोधकर्ताओं ने "PROCESSBENCH" नामक एक नया बेंचमार्क पेश किया है, जिसका उद्देश्य भाषा मॉडल की गणितीय तर्क में प्रक्रिया संबंधी त्रुटियों की पहचान करने की क्षमता को मापना है। जैसे-जैसे भाषा मॉडल जटिल तर्क कार्यों में महत्वपूर्ण प्रगति कर रहे हैं, इस क्षेत्र के शोधकर्ताओं ने पाया है कि, हालाँकि मॉडल उत्कृष्ट प्रदर्शन करते हैं, लेकिन कुछ कठिन समस्याओं को हल करते समय उन्हें अभी भी चुनौतियों का सामना करना पड़ता है। इसलिए, एक प्रभावी पर्यवेक्षण विधि विकसित करना विशेष रूप से महत्वपूर्ण हो गया है।
वर्तमान में, भाषा मॉडल के लिए मूल्यांकन बेंचमार्क में कुछ कमियां हैं। एक ओर, कुछ प्रश्न सेट उच्च स्तरीय मॉडल के लिए बहुत सरल हो गए हैं, दूसरी ओर, मौजूदा मूल्यांकन विधियाँ अक्सर केवल द्विआधारी सहीता मूल्यांकन प्रदान करती हैं, जबकि विस्तृत त्रुटि टिप्पणी का अभाव होता है। यह स्थिति एक अधिक व्यापक मूल्यांकन ढांचे की आवश्यकता को उजागर करती है, ताकि जटिल भाषा मॉडलों की तर्क तंत्र की गहराई से जांच की जा सके।
इस अंतर को भरने के लिए, शोधकर्ताओं ने "PROCESSBENCH" का डिज़ाइन किया, जो गणितीय तर्क में त्रुटि कदमों की पहचान पर केंद्रित है। इसके डिज़ाइन सिद्धांतों में प्रश्न की कठिनाई, समाधान की विविधता और व्यापक मूल्यांकन शामिल हैं। यह बेंचमार्क प्रतियोगिता और ओलंपिक स्तर के गणितीय प्रश्नों पर केंद्रित है, जिसमें विभिन्न समस्या समाधान विधियों को प्रदर्शित करने के लिए कई ओपन-सोर्स भाषा मॉडल का उपयोग किया गया है। PROCESSBENCH में कुल 3400 परीक्षण मामले शामिल हैं, जिन्हें कई मानव विशेषज्ञों द्वारा सावधानीपूर्वक चिह्नित किया गया है, जो डेटा गुणवत्ता और मूल्यांकन की विश्वसनीयता सुनिश्चित करता है।
विकास प्रक्रिया में, शोध टीम ने चार प्रसिद्ध डेटा सेट (GSM8K, MATH, OlympiadBench और Omni-MATH) से गणितीय प्रश्न एकत्र किए, यह सुनिश्चित करते हुए कि प्राथमिक विद्यालय से लेकर प्रतियोगिता स्तर की व्यापक कठिनाई शामिल हो। उन्होंने समाधान की विविधता बढ़ाने के लिए 12 विभिन्न समाधानों तक उत्पन्न करने के लिए ओपन-सोर्स मॉडल का उपयोग किया। इसके अलावा, समाधान के कदमों के प्रारूप को एकीकृत करने के लिए, टीम ने तर्कसंगत रूप से पूर्ण चरणबद्ध तर्क सुनिश्चित करने के लिए पुनः प्रारूपण विधि अपनाई।
शोध परिणामों से पता चलता है कि मौजूदा प्रक्रिया पुरस्कार मॉडल उच्च कठिनाई वाले प्रश्नों का सामना करते समय अच्छा प्रदर्शन नहीं करते हैं, विशेष रूप से सरल प्रश्न सेट पर, संकेत-आधारित मूल्यांकन मॉडल अधिक प्रमुख रूप से प्रदर्शन करते हैं। शोध ने गणितीय तर्क का मूल्यांकन करते समय मौजूदा मॉडलों की सीमाओं को उजागर किया, विशेष रूप से जब मॉडल गलत मध्यवर्ती चरणों के माध्यम से सही उत्तर तक पहुँचते हैं, तो सटीक निर्णय लेना कठिन होता है।
PROCESSBENCH एक अग्रणी बेंचमार्क के रूप में गणितीय तर्क त्रुटियों की पहचान करने की क्षमता का मूल्यांकन करने के लिए भाषा मॉडल के लिए एक महत्वपूर्ण ढांचा प्रदान करता है, जो तर्क प्रक्रिया में AI की समझ और सुधार को बढ़ावा देता है।
पत्र का लिंक: https://github.com/QwenLM/ProcessBench?tab=readme-ov-file
कोड: https://github.com/QwenLM/ProcessBench?tab=readme-ov-file
मुख्य बिंदु:
🌟 शोध टीम द्वारा प्रस्तुत नया बेंचमार्क "PROCESSBENCH" गणितीय तर्क में त्रुटियों की पहचान करने की भाषा मॉडल की क्षमता का मूल्यांकन करने के लिए है।
📊 PROCESSBENCH में 3400 परीक्षण मामले शामिल हैं, जो विभिन्न कठिनाई के गणितीय प्रश्नों को कवर करते हैं और विशेषज्ञों द्वारा सावधानीपूर्वक चिह्नित किए गए हैं।
🔍 शोध ने पाया कि मौजूदा प्रक्रिया पुरस्कार मॉडल उच्च कठिनाई वाले प्रश्नों पर अच्छा प्रदर्शन नहीं करते हैं, और उनकी त्रुटि पहचान रणनीतियों में सुधार की आवश्यकता है।