बीजिंग विश्वविद्यालय की झांग मुहान टीम ने एक नया ढाँचा प्रस्तुत किया है - लॉन्ग इनपुट फाइन-ट्यूनिंग (LIFT), जो लंबे इनपुट टेक्स्ट को मॉडल पैरामीटर्स में प्रशिक्षित करके, किसी भी छोटे संदर्भ विंडो मॉडल को लंबे टेक्स्ट प्रोसेसिंग क्षमता प्रदान करता है। यह तरीका पारंपरिक लंबे टेक्स्ट प्रोसेसिंग सोच को बदल देता है, और अनंत संदर्भ विंडो को बढ़ाने पर ध्यान केंद्रित करने के बजाय, लंबे टेक्स्ट ज्ञान को मॉडल पैरामीटर्स में आंतरिक रूप से शामिल करता है, जो मनुष्यों के कार्य मेमोरी को दीर्घकालिक मेमोरी में बदलने की प्रक्रिया के समान है।
वर्तमान में बड़े मॉडल लंबे टेक्स्ट को संसाधित करने में दो प्रमुख चुनौतियों का सामना करते हैं:
पारंपरिक ध्यान तंत्र का वर्ग जटिलता लंबे टेक्स्ट को संसाधित करते समय गणना और मेमोरी खर्च को बहुत अधिक बना देती है। मॉडल लंबे टेक्स्ट के विभिन्न हिस्सों में बिखरे हुए दीर्घकालिक संबंधों को समझने में असमर्थ है।
मौजूदा समाधान जैसे RAG और लंबे संदर्भ अनुकूलन में सीमाएँ हैं:
RAG सटीक पुनर्प्राप्ति पर निर्भर करता है, जिससे आसानी से शोर आ सकता है और भ्रम पैदा हो सकता है। लंबे संदर्भ अनुकूलन की उच्च अनुमान जटिलता है, और संदर्भ विंडो अभी भी सीमित है।
LIFT का तकनीकी नवाचार
LIFT ढाँचे में तीन प्रमुख घटक शामिल हैं:
गतिशील रूप से कुशल लंबा इनपुट प्रशिक्षण
भागों में भाषा मॉडलिंग के माध्यम से लंबे टेक्स्ट को अतिव्यापी खंडों में विभाजित करना। बहुत लंबे संदर्भ के कारण अनुमान जटिलता में वृद्धि और दीर्घकालिक निर्भरता के नुकसान से बचें। प्रशिक्षण जटिलता लंबे टेक्स्ट लंबाई के साथ रैखिक रूप से बढ़ती है।
मॉडल क्षमता को संतुलित करने वाला गेटेड मेमोरी एडेप्टर
विशेष रूप से डिज़ाइन किया गया गेटेड मेमोरी एडेप्टर आर्किटेक्चर, मूल मॉडल की इन-संदर्भ लर्निंग क्षमता और लंबे इनपुट की मेमोरी समझ को गतिशील रूप से संतुलित करता है। मॉडल को यह अनुमति देता है कि वह स्वचालित रूप से कितनी LIFT मेमोरी सामग्री का उपयोग करेगा।
सहायक कार्य प्रशिक्षण
पूर्व-प्रशिक्षित LLM द्वारा लंबे टेक्स्ट के आधार पर स्वचालित रूप से प्रश्नोत्तर प्रकार के सहायक कार्य उत्पन्न करना। खंड प्रशिक्षण में संभावित रूप से खोई हुई क्षमता की भरपाई करना। मॉडल को लंबे टेक्स्ट में जानकारी का उपयोग करके प्रश्नों के उत्तर देने में मदद करना।
प्रयोग के परिणाम
LIFT ने कई लंबे संदर्भ बेंचमार्क परीक्षणों में उल्लेखनीय सुधार प्राप्त किया है:
LooGLE लंबी निर्भरता प्रश्नोत्तर: Llama38B की सटीकता 15.44% से बढ़कर 29.97% हो गई। LooGLE छोटी निर्भरता प्रश्नोत्तर: Gemma29B की सटीकता 37.37% से बढ़कर 50.33% हो गई। LongBench के कई उप-कार्य: LIFT के माध्यम से Llama3 ने 5 उप-कार्यों में से 4 में स्पष्ट सुधार दिखाया।
एबलेशन प्रयोग से पता चलता है कि PiSSA फाइन-ट्यूनिंग वाले मूल मॉडल की तुलना में, गेटेड मेमोरी आर्किटेक्चर ने LooGLE ShortQA डेटासेट पर GPT-4 स्कोर में 5.48% की वृद्धि की।
सीमाएँ और भविष्य की दिशाएँ
हालांकि LIFT ने उल्लेखनीय परिणाम प्राप्त किए हैं, फिर भी कुछ सीमाएँ हैं:
"सुई में समुद्र की तलाश" कार्यों के लिए सटीक जानकारी निकालने की आवश्यकता वाले कार्यों के लिए अभी भी आदर्श नहीं है। मॉडल को LIFT द्वारा प्राप्त पैरामीट्रिक ज्ञान को निकालने की क्षमता में सुधार की आवश्यकता है। सहायक कार्य का डिज़ाइन नीचे के परीक्षण कार्यों पर बहुत अधिक निर्भर करता है, और इसकी सामान्यता सीमित है। मेमोरी और मौजूदा क्षमता के बीच बेहतर संतुलन कैसे बनाया जाए, यह अभी भी शोध का मुख्य बिंदु है।
शोध दल समुदाय को व्यापक प्रशिक्षण डेटा, अधिक समृद्ध मॉडल, अधिक उन्नत सहायक कार्य डिज़ाइन और अधिक शक्तिशाली कंप्यूटिंग संसाधनों के समर्थन में LIFT की क्षमता का पता लगाने के लिए प्रोत्साहित करता है।
निष्कर्ष
LIFT एक नया लंबा टेक्स्ट प्रोसेसिंग प्रतिमान प्रदान करता है, जो संदर्भ ज्ञान को पैरामीट्रिक ज्ञान में बदल देता है, यह विचार मनुष्यों के अल्पकालिक मेमोरी को दीर्घकालिक मेमोरी में बदलने की प्रक्रिया के समान है। हालाँकि लंबे संदर्भ चुनौती को पूरी तरह से हल करने से अभी भी दूरी है, लेकिन LIFT ने एक बहुत ही संभावित शोध दिशा खोली है।
पेपर पता: https://arxiv.org/abs/2502.14644