परंपरागत बड़े भाषा मॉडल (LLM) के माइक्रो-ट्यूनिंग विधियाँ आमतौर पर गणनात्मक रूप से गहन होती हैं और विविध कार्यों को संभालते समय स्थिर लगती हैं। इन चुनौतियों को हल करने के लिए, Sakana AI ने एक नई अनुकूलनीय ढाँचे का नाम दिया है Transformer²। Transformer²推理 के दौरान LLM के वज़न को वास्तविक समय में समायोजित करने में सक्षम है, जिससे यह विभिन्न अज्ञात कार्यों के लिए ओक्टोपस की तरह लचीला बन जाता है।

Transformer² का मूल एक दो-चरणीय तंत्र में निहित है:

पहले चरण में, एक शेड्यूलिंग सिस्टम उपयोगकर्ता की क्वेरी का विश्लेषण करता है, कार्य की विशेषताओं की पहचान करता है।

दूसरे चरण में, सिस्टम कई "विशेषज्ञ" वेक्टरों को गतिशील रूप से मिलाता है। ये वेक्टर मजबूत शिक्षण का उपयोग करके प्रशिक्षित किए जाते हैं, प्रत्येक वेक्टर विशिष्ट प्रकार के कार्य पर ध्यान केंद्रित करता है, जिससे वर्तमान कार्य के लिए अनुकूलित मॉडल व्यवहार उत्पन्न होता है।

image.png

यह विधि पारंपरिक माइक्रो-ट्यूनिंग विधियों (जैसे LoRA) की तुलना में कम पैरामीटर का उपयोग करती है, और अधिक प्रभावी है। Transformer² विभिन्न LLM आर्किटेक्चर और मोड में (दृश्य भाषा कार्यों सहित) मजबूत अनुकूलनशीलता प्रदर्शित करता है।

Transformer² की प्रमुख तकनीकें

सिंगुलर वैल्यू माइक्रो-ट्यूनिंग (SVF): यह एक नई पैरामीटर-कुशल माइक्रो-ट्यूनिंग विधि है, जो मॉडल वज़न मैट्रिक्स में सिंगुलर वैल्यू को निकालने और समायोजित करने के माध्यम से काम करती है। यह विधि ओवरफिटिंग के जोखिम को कम करती है, गणनात्मक आवश्यकताओं को घटाती है, और अंतर्निहित संयोजकता की अनुमति देती है। संकीर्ण डेटा सेट पर मजबूत शिक्षण का उपयोग करके, एक प्रभावी विशिष्ट क्षेत्र "विशेषज्ञ" वेक्टरों का सेट प्राप्त किया जा सकता है, जो सीधे प्रत्येक विषय के कार्य प्रदर्शन को अनुकूलित करता है।

image.png

अनुकूलनीय रणनीतियाँ:推理 चरण में, Transformer² SVF प्रशिक्षण के विशेषज्ञ वेक्टरों को संयोजित करने के लिए तीन विभिन्न अनुकूलनीय रणनीतियों का उपयोग करता है। ये रणनीतियाँ परीक्षण के समय की स्थितियों के आधार पर LLM के वज़न को गतिशील रूप से समायोजित कर सकती हैं, जिससे आत्म-समायोजन संभव होता है।

Transformer² के लाभ

गतिशील अनुकूलनशीलता: Transformer² संचालन के वातावरण या आंतरिक स्थिति में बदलाव के आधार पर अपने व्यवहार का आकलन और संशोधन करने में सक्षम है, बिना बाहरी हस्तक्षेप के।

पैरामीटर कुशल: LoRA जैसी विधियों की तुलना में, SVF द्वारा उपयोग किए गए पैरामीटर कम हैं, लेकिन प्रदर्शन अधिक है।

मॉड्यूलर क्षमता: विशेषज्ञ वेक्टर मॉड्यूलर क्षमता प्रदान करते हैं, जबकि अनुकूलनीय रणनीतियाँ इनपुट कार्यों को संभालने के लिए सबसे उपयुक्त वेक्टरों को गतिशील रूप से निर्धारित और संयोजित कर सकती हैं।

मजबूत शिक्षण अनुकूलन: मजबूत शिक्षण के माध्यम से, कार्य प्रदर्शन को सीधे अनुकूलित किया जा सकता है, महंगे माइक्रो-ट्यूनिंग कार्यक्रमों और बड़े डेटा सेटों पर निर्भर किए बिना।

क्रॉस-मॉडल संगतता: SVF विशेषज्ञ वेक्टर विभिन्न LLM मॉडल के बीच स्थानांतरित किए जा सकते हैं, जो इसके अंतर्निहित क्रम संरचना के कारण संभव है।

प्रयोगात्मक परिणाम

कई LLM और कार्यों पर किए गए प्रयोगों ने दिखाया है कि SVF का प्रदर्शन हमेशा पारंपरिक माइक्रो-ट्यूनिंग रणनीतियों (जैसे LoRA) से बेहतर है।

Transformer² की अनुकूलनीय रणनीतियाँ विभिन्न अज्ञात कार्यों में महत्वपूर्ण सुधार दिखाती हैं।

कार्य वर्गीकरण के लिए विशेषज्ञों का उपयोग सीधे संकेत इंजीनियरिंग के वर्गीकरण सटीकता की तुलना में अधिक है।

विभिन्न मॉडलों और कार्य संयोजनों में, अनुकूलनीय गुणांक (αk) का योगदान असमान है।

भविष्य की दृष्टि

हालांकि Transformer² ने महत्वपूर्ण प्रगति की है, फिर भी सुधार की गुंजाइश है। भविष्य के शोध मॉडल विलय तकनीकों का पता लगा सकते हैं, विभिन्न विशेषज्ञ मॉडलों को एक मजबूत मॉडल में विलय कर सकते हैं। इसके अतिरिक्त, CEM विधियों का विस्तार करने के तरीकों का अध्ययन किया जा सकता है, ताकि अधिक विशेषज्ञ क्षेत्रों का सामना किया जा सके।

कुल मिलाकर, Transformer² अनुकूलनीय LLM क्षेत्र में एक बड़ा छलांग है, जो वास्तव में गतिशील, आत्म-संगठित AI सिस्टम बनाने के लिए मार्ग प्रशस्त करता है।

पेपर का पता: https://arxiv.org/pdf/2501.06252