हाल ही में, Meta, कैलिफोर्निया विश्वविद्यालय बर्कले और न्यूयॉर्क विश्वविद्यालय के वैज्ञानिकों ने एक नई तकनीक विकसित की है, जिसे "सोचने की प्राथमिकता ऑप्टिमाइजेशन" (Thought Preference Optimization, संक्षेप में TPO) कहा जाता है। इस तकनीक का लक्ष्य बड़े भाषा मॉडलों (LLMs) के प्रदर्शन को विभिन्न कार्यों को पूरा करते समय बढ़ाना है, ताकि AI अपने उत्तर देने से पहले अपने प्रतिक्रिया पर अधिक ध्यानपूर्वक विचार कर सके।
शोधकर्ताओं का कहना है कि "सोचना" व्यापक उपयोगिता रखता है। उदाहरण के लिए, रचनात्मक लेखन कार्यों में, AI आंतरिक सोच प्रक्रिया का उपयोग करके समग्र संरचना और चरित्र विकास की योजना बना सकता है। यह विधि पिछले "श्रृंखला-चिंतन" (Chain-of-Thought, CoT) तकनीक से महत्वपूर्ण रूप से भिन्न है, जो मुख्य रूप से गणित और तर्क कार्यों में उपयोग की जाती है, जबकि TPO का उपयोग क्षेत्र अधिक व्यापक है। शोधकर्ताओं ने OpenAI के नए o1 मॉडल का उल्लेख किया और माना कि सोचने की प्रक्रिया अन्य व्यापक कार्यों में भी सहायक हो सकती है।
तो, TPO कैसे काम करता है? सबसे पहले, मॉडल प्रश्न का उत्तर देने से पहले एक श्रृंखला में सोचने के चरण उत्पन्न करता है। इसके बाद, यह कई आउटपुट उत्पन्न करता है, जिसे एक मूल्यांकन मॉडल केवल अंतिम उत्तर का मूल्यांकन करने के लिए उपयोग करता है, न कि सोचने के चरणों का। अंत में, इन मूल्यांकन परिणामों के प्राथमिकता ऑप्टिमाइजेशन के माध्यम से, मॉडल को प्रशिक्षित किया जाता है। शोधकर्ता आशा करते हैं कि उत्तर की गुणवत्ता को सोचने की प्रक्रिया में सुधार के माध्यम से बढ़ाया जा सके, ताकि मॉडल निहित अध्ययन में अधिक प्रभावी तर्क क्षमता प्राप्त कर सके।
परीक्षणों में, TPO का उपयोग करने वाले Llama38B मॉडल ने सामान्य निर्देश पालन मानक परीक्षणों में स्पष्ट तर्क का उपयोग न करने वाले संस्करण की तुलना में बेहतर प्रदर्शन किया। AlpacaEval और Arena-Hard मानक परीक्षणों में, TPO की जीत दर क्रमशः 52.5% और 37.3% थी। और भी रोमांचक बात यह है कि TPO ने सामान्य ज्ञान, विपणन और स्वास्थ्य जैसे क्षेत्रों में भी प्रगति की है, जहाँ आमतौर पर स्पष्ट सोच की आवश्यकता नहीं होती है।
हालांकि, शोध टीम ने यह भी बताया कि वर्तमान सेटिंग गणितीय समस्याओं के लिए उपयुक्त नहीं है, क्योंकि इन कार्यों में TPO का प्रदर्शन वास्तव में मूल मॉडल से कम है। यह दर्शाता है कि अत्यधिक विशेषीकृत कार्यों के लिए, शायद अलग-अलग दृष्टिकोण अपनाने की आवश्यकता हो सकती है। भविष्य के शोध का ध्यान सोचने की प्रक्रिया की लंबाई नियंत्रण और बड़े मॉडलों पर सोचने के प्रभाव जैसे पहलुओं पर केंद्रित हो सकता है।
मुख्य बिंदु:
🌟 शोध टीम ने "सोचने की प्राथमिकता ऑप्टिमाइजेशन" (TPO) लॉन्च किया, जिसका उद्देश्य AI की कार्य निष्पादन में सोचने की क्षमता को बढ़ाना है।
🧠 TPO मॉडल को उत्तर देने से पहले सोचने के चरण उत्पन्न करने के लिए कहता है, जिससे मूल्यांकन मॉडल का उपयोग करके उत्तर की गुणवत्ता को ऑप्टिमाइज किया जाता है।
📈 परीक्षणों से पता चलता है कि TPO सामान्य ज्ञान और विपणन जैसे क्षेत्रों में उत्कृष्ट प्रदर्शन करता है, लेकिन गणितीय कार्यों में इसका प्रदर्शन खराब है।