आज, अली क्लाउड टोंग यी टीम ने पूरी तरह से नए गणितीय तर्क प्रक्रिया पुरस्कार मॉडल Qwen2.5-Math-PRM का आधिकारिक रूप से विमोचन किया। इस मॉडल में 72B और 7B दो आकार उपलब्ध हैं, और इसकी प्रदर्शन क्षमता समान श्रेणी के ओपन-सोर्स प्रक्रिया पुरस्कार मॉडलों की तुलना में काफी बेहतर है, विशेष रूप से तर्क की गलतियों की पहचान में यह अत्यधिक प्रभावशाली है।

Qwen2.5-Math-PRM का 7B संस्करण उद्योग में व्यापक रूप से लोकप्रिय GPT-4o को आश्चर्यजनक रूप से पार कर गया, यह उपलब्धि अली क्लाउड के तर्क मॉडल विकास में एक महत्वपूर्ण कदम का प्रतीक है। गणितीय तर्क में मॉडल के प्रदर्शन का समग्र मूल्यांकन करने के लिए, टोंग यी टीम ने पहला चरण-स्तरीय मूल्यांकन मानक - ProcessBench को ओपन-सोर्स किया। यह मूल्यांकन मानक 3400 गणितीय समस्या परीक्षण मामलों को कवर करता है, जिसमें अंतर्राष्ट्रीय ओलंपियाड गणित प्रतियोगिता की कठिनाई वाले प्रश्न भी शामिल हैं, और प्रत्येक मामले को मानव विशेषज्ञों द्वारा विस्तृत तर्क प्रक्रिया के साथ लेबल किया गया है, जिससे मूल्यांकन की वैज्ञानिकता और व्यापकता सुनिश्चित होती है।

image.png

ProcessBench पर Qwen2.5-Math-PRM के प्रदर्शन का मूल्यांकन करने के बाद, शोध टीम ने पाया कि 72B और 7B दोनों आकार के मॉडल उत्कृष्ट प्रदर्शन कर रहे हैं। विशेष रूप से 7B संस्करण ने न केवल समान आकार के ओपन-सोर्स मॉडलों को पार किया, बल्कि कुछ मामलों में बंद-स्रोत GPT-4o-0806 को भी पीछे छोड़ दिया। यह प्रक्रिया पुरस्कार मॉडल (PRM) की तर्क की विश्वसनीयता बढ़ाने में विशाल क्षमता को प्रमाणित करता है, और भविष्य की तर्क प्रक्रिया निगरानी तकनीक के विकास के लिए नए दृष्टिकोण प्रदान करता है।

image.png

अली क्लाउड टोंग यी टीम का यह नवोन्मेषी कार्य न केवल कृत्रिम बुद्धिमत्ता तर्क तकनीक की प्रगति को बढ़ावा देता है, बल्कि उद्योग में अन्य डेवलपर्स के लिए भी मूल्यवान संदर्भ प्रदान करता है। ओपन-सोर्स के माध्यम से, टोंग यी टीम अधिक शोधकर्ताओं के साथ अनुभव साझा करने की उम्मीद करती है, जिससे पूरे उद्योग की तकनीकी प्रगति को बढ़ावा मिल सके।