हाल ही में एक नवीन ओपन-सोर्स ढांचे का नाम OpenR लॉन्च किया गया है, जिसका उद्देश्य बड़े भाषा मॉडल (LLMs) की जटिल तर्क कार्यों में कमियों को दूर करना है। यह ढांचा लंदन विश्वविद्यालय कॉलेज, लिवरपूल विश्वविद्यालय, शंघाई जियाओ टोंग विश्वविद्यालय, हांगकांग विज्ञान और प्रौद्योगिकी विश्वविद्यालय (गुआंगज़ौ) और पश्चिम झील विश्वविद्यालय के शोधकर्ताओं द्वारा संयुक्त रूप से विकसित किया गया है, जो परीक्षण के समय की गणना, सुदृढ़ीकरण शिक्षण और प्रक्रिया पर्यवेक्षण को संयोजित करके LLMs की तर्क क्षमता को बढ़ाने के लिए नए रास्ते खोलता है।
हालांकि LLMs ने भाषा उत्पन्न करने में महत्वपूर्ण प्रगति की है, लेकिन वे गणित, प्रोग्रामिंग और विज्ञान जैसे जटिल कार्यों को संभालने में अभी भी चुनौतियों का सामना कर रहे हैं। OpenR का उद्देश्य इस अंतर को भरना है, LLMs की क्षमताओं को सरल पाठ उत्पन्न करने से उच्च स्तर के तर्क क्षेत्र में विस्तारित करना है।
OpenR का डिज़ाइन आंशिक रूप से OpenAI के o1 मॉडल से प्रेरित है, लेकिन इसका लक्ष्य और भी बड़ा है: न केवल उन्नत भाषा मॉडल की तर्क क्षमता की नकल करना, बल्कि इसके आधार पर नई उपलब्धियों को प्राप्त करना। जटिल तर्क समर्थन प्रदान करने वाला पहला ओपन-सोर्स समाधान होने के नाते, OpenR डेटा अधिग्रहण, प्रक्रिया पुरस्कार मॉडल और कुशल तर्क विधियों पर ध्यान केंद्रित करता है, जिसका उद्देश्य तर्क-केंद्रित बड़े भाषा मॉडल के विकास को तेज करना है।
चित्र स्रोत नोट: छवि AI द्वारा उत्पन्न, छवि लाइसेंस सेवा प्रदाता Midjourney
इस ढांचे की केंद्रीय संरचना डेटा वृद्धि, नीति शिक्षण और तर्क मार्गदर्शन के चारों ओर बहु-पथ अन्वेषण को जोड़ती है। OpenR ने तर्क कार्यों को मॉडलिंग के लिए मार्कोव निर्णय प्रक्रिया (MDP) का उपयोग किया है, जिससे जटिल तर्क प्रक्रियाओं को मूल्यांकन और अनुकूलन योग्य चरणों की एक श्रृंखला में विभाजित किया जा सके। यह विधि न केवल तर्क कौशल को सीधे विकसित करती है, बल्कि प्रत्येक चरण में कई तर्क पथों का अन्वेषण करने की अनुमति देती है, जिससे तर्क प्रक्रिया की मजबूती में काफी वृद्धि होती है।
ढांचे की एक और प्रमुख विशेषता प्रक्रिया पुरस्कार मॉडल (PRM) है, जो मध्यवर्ती तर्क चरणों के लिए विस्तृत प्रतिक्रिया प्रदान करता है, जिससे मॉडल को निर्णय को अधिक सटीकता से समायोजित करने में मदद मिलती है, न कि केवल अंतिम परिणाम के मूल्यांकन पर निर्भर रहना। इस सूक्ष्म मार्गदर्शन ने मॉडल की सीखने की दक्षता को महत्वपूर्ण रूप से बढ़ा दिया है।
व्यावहारिक परीक्षणों में, OpenR ने उल्लेखनीय प्रदर्शन दिखाया है। MATH डेटा सेट के संदर्भ में, OpenR की तर्क सटीकता पारंपरिक विधियों की तुलना में लगभग 10% बेहतर है। शोध ने यह भी पाया है कि "Best-of-N" और "Beam Search" जैसे बहु-पथ अन्वेषण विधियाँ सरल बहुमत मतदान तकनीकों की तुलना में स्पष्ट रूप से बेहतर हैं, विशेष रूप से जब गणना संसाधन सीमित होते हैं।
OpenR की सुदृढ़ीकरण शिक्षण तकनीक, विशेष रूप से PRM का उपयोग करने वाली, ऑनलाइन नीति शिक्षण परिदृश्यों में उत्कृष्ट प्रदर्शन दिखाती है, LLMs की तर्क क्षमता में निरंतर सुधार को बढ़ावा देती है। यह परिणाम दर्शाता है कि अच्छी तरह से डिज़ाइन की गई शिक्षण रणनीतियों के माध्यम से, LLMs जटिल तर्क कार्यों में महत्वपूर्ण प्रगति करने की क्षमता रखते हैं।
एक ओपन-सोर्स प्लेटफॉर्म के रूप में, OpenR शोधकर्ताओं और डेवलपर्स को मूल्यवान संसाधन प्रदान करता है ताकि वे मिलकर भाषा मॉडल की तर्क क्षमता को आगे बढ़ा सकें। यह न केवल वर्तमान LLMs के लिए उन्नयन का मार्ग प्रदान करता है, बल्कि भविष्य के अधिक बुद्धिमान और तर्कशक्ति वाले AI सिस्टम के लिए भी रास्ता तैयार करता है।
भविष्य की ओर देखते हुए, OpenR टीम ढांचे की कार्यक्षमता को और विस्तारित करने की योजना बना रही है, जिसमें व्यापक तर्क कार्य प्रकारों को शामिल किया जाएगा और इसके तर्क प्रक्रियाओं को निरंतर अनुकूलित किया जाएगा। यह प्रयास आत्म-सुधार करने वाले तर्क-आधारित AI एजेंट के इस दीर्घकालिक लक्ष्य को प्राप्त करने में महत्वपूर्ण योगदान देने की उम्मीद है।
परियोजना का पता: https://github.com/facebook/openr