अलीबाबा Qwen टीम ने हाल ही में "गणितीय तर्क में प्रक्रिया पुरस्कार मॉडल के विकास के अनुभव और सबक" शीर्षक से एक पेपर प्रकाशित किया है, और Qwen2.5-Math-PRM श्रृंखला में 7B और 72B पैरामीटर वाले दो नए मॉडल लॉन्च किए हैं। ये मॉडल गणितीय तर्क में मौजूदा PRM ढांचे की सीमाओं को पार करते हैं और नवीन तकनीकों के माध्यम से तर्क मॉडल की सटीकता और सामान्यीकरण क्षमता में महत्वपूर्ण सुधार करते हैं।

गणितीय तर्क बड़े भाषा मॉडल (LLM) के लिए एक बड़ा चुनौती रहा है, विशेष रूप से मध्यवर्ती तर्क चरणों में, जहाँ गलतियाँ अक्सर अंतिम आउटपुट की सटीकता को प्रभावित करती हैं, जो शिक्षा, वैज्ञानिक गणना आदि जैसे सटीकता की उच्च आवश्यकता वाले क्षेत्रों में विशेष रूप से समस्याग्रस्त होती हैं। पारंपरिक मूल्यांकन विधियाँ, जैसे कि Best-of-N (BoN) रणनीति, तर्क प्रक्रिया की जटिलता को पूरी तरह से पकड़ने में असमर्थ हैं, इसलिए प्रक्रिया पुरस्कार मॉडल (PRM) का विकास हुआ, जिसका उद्देश्य मध्यवर्ती चरणों की सहीता का मूल्यांकन करके अधिक विस्तृत निगरानी प्रदान करना है।

हालांकि, प्रभावी PRM का निर्माण डेटा एनोटेशन और मूल्यांकन विधियों की चुनौतियों का सामना करता है, जो मौजूदा मॉडल पूरी तरह से हल नहीं कर सकते। इसलिए, एक ऐसा मॉडल की आवश्यकता है जो मजबूत, प्रक्रिया-चालित तर्क के अनुरूप हो।

QQ20250116-104124.png

Qwen टीम की नवीन विधि मोंटे कार्लो (MC) अनुमान और "LLM को निर्णयकर्ता के रूप में" तंत्र को जोड़ती है। यह मिश्रित विधि चरणबद्ध एनोटेशन की गुणवत्ता को बढ़ाती है, जिससे PRM गणितीय तर्क में त्रुटियों की पहचान और कम करने में अधिक प्रभावी हो जाता है। इस तकनीक के माध्यम से, Qwen2.5-Math-PRM श्रृंखला के मॉडल PROCESSBENCH जैसे बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन करते हैं, विशेष रूप से मध्यवर्ती तर्क की त्रुटियों को पहचानने की क्षमता में।

संसेधन फ़िल्टरिंग: केवल तब डेटा को बनाए रखा जाता है जब MC अनुमान और LLM दोनों चरण की सहीता पर सहमत होते हैं, जिससे प्रशिक्षण में शोर में महत्वपूर्ण कमी आती है।कठोर लेबलिंग: दोहरे तंत्र द्वारा सत्यापित निश्चित लेबलिंग मॉडल की प्रभावी और अव्यवस्थित तर्क चरणों के बीच भेद करने की क्षमता को बढ़ाता है।प्रभावी डेटा उपयोग: MC अनुमान और LLM को निर्णयकर्ता के रूप में जोड़ने वाली संसेधन फ़िल्टरिंग रणनीति उच्च गुणवत्ता वाले डेटा को सुनिश्चित करती है और स्केलेबिलिटी बनाए रखती है।

ये नवाचार Qwen2.5-Math-PRM मॉडल को न केवल सटीकता में सुधार करने में मदद करते हैं, बल्कि स्वचालित ट्यूशन और जटिल समस्या समाधान जैसे अनुप्रयोगों में प्रदर्शन को भी बढ़ाते हैं।

Qwen2.5-Math-PRM श्रृंखला कई मूल्यांकन मानकों पर उत्कृष्ट प्रदर्शन करती है। उदाहरण के लिए, Qwen2.5-Math-PRM-72B मॉडल का F1 स्कोर 78.3% तक पहुँच जाता है, जो कई ओपन-सोर्स विकल्पों को पार करता है। विशेष रूप से, यह त्रुटियों को चरणबद्ध पहचानने की आवश्यकता वाले कार्यों में GPT-4-0806 जैसे स्वामित्व मॉडल की तुलना में बेहतर प्रदर्शन करता है।

संसेधन फ़िल्टरिंग तंत्र ने डेटा शोर को लगभग 60% तक प्रभावी ढंग से कम किया है, जिससे प्रशिक्षण डेटा की गुणवत्ता में महत्वपूर्ण सुधार हुआ है। इसके अलावा, Qwen2.5-Math-PRM चरणबद्ध मूल्यांकन पर जोर देता है, पारंपरिक परिणाम-आधारित BoN रणनीति के बजाय, जो यह समस्या हल करता है कि पूर्व के मॉडल अक्सर अंतिम उत्तर पर बहुत अधिक निर्भर होते हैं और तर्क की सटीकता की अनदेखी करते हैं।

Qwen2.5-Math-PRM श्रृंखला का शुभारंभ गणितीय तर्क के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है। डेटा एनोटेशन में शोर और प्रक्रिया से परिणाम में偏差 जैसी PRM विकास की चुनौतियों का समाधान करके, Qwen टीम ने तर्क की सटीकता और विश्वसनीयता को बढ़ाने के लिए एक व्यावहारिक ढांचा प्रदान किया है। जैसे-जैसे यह तकनीक विकसित होती है, उम्मीद है कि भविष्य में PRM मॉडल व्यापक AI अनुप्रयोगों में महत्वपूर्ण भूमिका निभाएंगे, मशीन तर्क प्रणाली की विश्वसनीयता और प्रभावशीलता को बढ़ाएंगे।