कृत्रिम बुद्धिमत्ता के क्षेत्र में, बड़े भाषा मॉडल (LLM) लगातार विकसित हो रहे हैं। हाल ही में, कार्नेगी मेलन विश्वविद्यालय (CMU) और HuggingFace के शोधकर्ताओं ने मिलकर "मेटा सुदृढीकरण ठीक-ट्यूनिंग" (Meta Reinforcement Fine-Tuning, संक्षेप में MRT) नामक एक नई विधि प्रस्तावित की है। इस विधि का उद्देश्य परीक्षण के समय बड़े भाषा मॉडल की गणना दक्षता को अनुकूलित करना है, खासकर जटिल तर्क समस्याओं को हल करते समय, यह विशेष रूप से उत्कृष्ट प्रदर्शन करता है।

अध्ययन से पता चलता है कि मौजूदा बड़े भाषा मॉडल अक्सर तर्क प्रक्रिया में बहुत अधिक संगणना संसाधन का उपभोग करते हैं, जबकि MRT का लक्ष्य मॉडल को दिए गए संगणना बजट के भीतर, अधिक कुशल उत्तर खोज को प्राप्त करना है। यह विधि बड़े भाषा मॉडल के आउटपुट को कई भागों में विभाजित करती है, ताकि अन्वेषण और उपयोग के बीच संतुलन बनाया जा सके। प्रशिक्षण डेटा के गहन अध्ययन के माध्यम से, MRT मॉडल को अज्ञात कठिनाइयों का सामना करने पर, ज्ञात जानकारी का उपयोग करने और साथ ही नई समस्या-समाधान रणनीतियों का पता लगाने में सक्षम बनाता है।

image.png

अध्ययन में, CMU टीम के प्रयोगों से पता चला है कि MRT ठीक-ट्यूनिंग के बाद, मॉडल ने कई तर्क बेंचमार्क परीक्षणों में उल्लेखनीय सुधार प्राप्त किया है। पारंपरिक परिणाम पुरस्कार सुदृढीकरण शिक्षण (GRPO) की तुलना में, MRT की सटीकता 2 से 3 गुना अधिक है, और टोकन उपयोग दक्षता में 1.5 गुना वृद्धि हुई है। इसका मतलब है कि MRT न केवल मॉडल की तर्क क्षमता में सुधार करता है, बल्कि संगणना संसाधन की खपत को भी कम करता है, जिससे व्यावहारिक अनुप्रयोगों में यह अधिक फायदेमंद होता है।

इसके अलावा, शोधकर्ताओं ने मौजूदा तर्क मॉडल की प्रभावशीलता का प्रभावी ढंग से मूल्यांकन करने के तरीके पर भी विचार प्रस्तुत किया है, जिससे भविष्य के शोध के लिए आधार तैयार हुआ है। यह उपलब्धि न केवल MRT की क्षमता को दर्शाती है, बल्कि अधिक जटिल अनुप्रयोग परिदृश्यों में बड़े भाषा मॉडल के अनुप्रयोग के लिए दिशा भी प्रदान करती है।

इस तरह के नवाचार के माध्यम से, CMU और HuggingFace की अनुसंधान टीम निस्संदेह AI तकनीक के अग्रिम पक्ष को आगे बढ़ा रही है, मशीनों को अधिक शक्तिशाली तर्क क्षमता प्रदान कर रही है, और अधिक बुद्धिमान अनुप्रयोगों को प्राप्त करने के लिए एक ठोस आधार तैयार कर रही है।

प्रोजेक्ट पता: https://cohenqu.github.io/mrt.github.io/