हाल ही में, Meta AI के शोध टीम ने कैलिफोर्निया विश्वविद्यालय बर्कले और न्यूयॉर्क विश्वविद्यालय के शोधकर्ताओं के साथ मिलकर एक नई विधि पेश की है, जिसका नाम है थॉट प्रेफरेंस ऑप्टिमाइजेशन (Thought Preference Optimization, TPO)। इसका उद्देश्य निर्देशित सूक्ष्मता के माध्यम से बड़े भाषा मॉडल (LLM) की प्रतिक्रिया गुणवत्ता को बढ़ाना है।
परंपरागत मॉडलों के विपरीत, जो केवल अंतिम उत्तर पर ध्यान केंद्रित करते हैं, TPO विधि मॉडल को प्रतिक्रिया उत्पन्न करने से पहले आंतरिक सोच करने की अनुमति देती है, जिससे अधिक सटीक और संगत उत्तर उत्पन्न होते हैं।
यह नई तकनीक एक उन्नत थॉट चेन (Chain-of-Thought, CoT) तर्क विधि को जोड़ती है। प्रशिक्षण प्रक्रिया में, यह विधि मॉडल को प्रतिक्रिया देने से पहले "सोचने" के लिए प्रोत्साहित करती है, जिससे उसे एक अधिक प्रणालीबद्ध आंतरिक सोच प्रक्रिया बनाने में मदद मिलती है। पहले के सीधे CoT संकेत कभी-कभी सटीकता को कम कर देते थे, और स्पष्ट सोच के चरणों की कमी के कारण प्रशिक्षण प्रक्रिया कठिन हो जाती थी। TPO इन सीमाओं को पार करता है, मॉडल को अपने सोचने की प्रक्रिया को अनुकूलित और संक्षिप्त करने की अनुमति देकर, और उपयोगकर्ता के सामने मध्यवर्ती सोच चरण नहीं दिखाता।
टीपीओ की प्रक्रिया में, पहले बड़े भाषा मॉडल को कई सोच प्रक्रियाएँ उत्पन्न करने के लिए प्रेरित किया जाता है, फिर अंतिम प्रतिक्रिया बनाने से पहले इन आउटपुट का नमूना और मूल्यांकन किया जाता है। इसके बाद, एक मूल्यांकन मॉडल आउटपुट को स्कोर करता है, सबसे अच्छे और सबसे खराब उत्तर को निर्धारित करता है। इन आउटपुट को चयन और अस्वीकृति के रूप में सीधे प्रेफरेंस ऑप्टिमाइजेशन (Direct Preference Optimization, DPO) के लिए उपयोग करके, यह पुनरावृत्त प्रशिक्षण विधि मॉडल की अधिक प्रासंगिक और उच्च गुणवत्ता वाली प्रतिक्रियाएँ उत्पन्न करने की क्षमता को बढ़ाती है, जिससे समग्र प्रभाव में सुधार होता है।
इस विधि में, प्रशिक्षण संकेतों को समायोजित किया गया है, जो मॉडल को प्रतिक्रिया देने से पहले आंतरिक सोच करने के लिए प्रोत्साहित करता है। मूल्यांकन किए गए अंतिम उत्तर को एक LLM आधारित मूल्यांकन मॉडल द्वारा स्कोर किया जाता है, जिससे मॉडल बिना छिपी सोच चरणों पर विचार किए केवल प्रतिक्रिया की प्रभावशीलता के आधार पर गुणवत्ता में सुधार कर सकता है। इसके अतिरिक्त, TPO छिपी सोच के प्रेफरेंस और अस्वीकृति प्रतिक्रियाओं के जोड़े बनाने के लिए सीधे प्रेफरेंस ऑप्टिमाइजेशन का उपयोग करता है, जो कई प्रशिक्षण चक्रों के माध्यम से मॉडल की आंतरिक प्रक्रिया को और अधिक परिष्कृत करता है।
शोध परिणाम दर्शाते हैं कि TPO विधि कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन करती है, और विभिन्न मौजूदा मॉडलों को पार करती है। यह विधि न केवल तार्किक और गणितीय कार्यों के लिए उपयुक्त है, बल्कि रचनात्मक क्षेत्रों जैसे विपणन और स्वास्थ्य में भी निर्देशित पालन कार्यों में क्षमता दिखाती है।
पत्र: https://arxiv.org/pdf/2410.10630
मुख्य बिंदु:
🧠 TPO तकनीक बड़े भाषा मॉडल की प्रतिक्रिया उत्पन्न करने से पहले सोचने की क्षमता को बढ़ाती है, जिससे प्रतिक्रिया अधिक सटीक होती है।
📈 उन्नत थॉट चेन तर्क के माध्यम से, मॉडल अपनी आंतरिक सोच प्रक्रिया को अनुकूलित और संक्षिप्त कर सकता है, प्रतिक्रिया की गुणवत्ता को बढ़ाता है।
💡 TPO विभिन्न क्षेत्रों में लागू होती है, केवल तार्किक और गणितीय कार्यों तक सीमित नहीं है, बल्कि रचनात्मक और स्वास्थ्य जैसे क्षेत्रों में भी उपयोग की जा सकती है।