कृत्रिम बुद्धिमत्ता के क्षेत्र में, DeepSeek-R1 के लॉन्च ने व्यापक ध्यान आकर्षित किया है, यह नवाचार AI उद्योग में क्रांतिकारी प्रगति का प्रतिनिधित्व करता है। इसका बहु-शीर्ष अव्यक्त ध्यान नेटवर्क (Multi-head Latent Attention, MLA) आर्किटेक्चर, निम्न-रैंक संपीड़न तकनीक की मदद से प्रशिक्षण और अनुमान की लागत को काफी कम करता है, यहाँ तक कि समान प्रदर्शन वाले बड़े मॉडल के दसवें हिस्से तक। यह उपलब्धि फुदान विश्वविद्यालय के NLP प्रयोगशाला के पोस्टडॉक्टरल शोधकर्ता जी ताओ और उनकी टीम द्वारा मिलकर पूरी की गई है, जिसका लक्ष्य किसी भी पूर्व-प्रशिक्षित बड़े भाषा मॉडल को MLA आर्किटेक्चर में तेज़ी से स्थानांतरित करना है, बिना नए सिरे से प्रशिक्षण की आवश्यकता के।
वर्तमान में, मुख्यधारा के बड़े मॉडल आम तौर पर मानक बहु-शीर्ष ध्यान तंत्र (MHA) और इसके वेरिएंट पर आधारित होते हैं, इन मॉडलों में MLA की तुलना में अनुमान लागत में स्पष्ट नुकसान है। इसलिए, शोध दल ने MHA2MLA ढाँचा प्रस्तुत किया है, जिसका उद्देश्य दो प्रमुख चरणों - आंशिक RoPE संरक्षण और कुंजी-मान संयुक्त प्रतिनिधित्व निम्न-रैंक सन्निकटन के माध्यम से, MHA/GQA आर्किटेक्चर से MLA में सफलतापूर्वक संक्रमण करना है।
MHA2MLA के कार्यान्वयन के दौरान, टीम ने पहले आंशिक RoPE माइक्रो-ट्यूनिंग रणनीति के माध्यम से, उच्च आयामों से स्थिति कोडिंग को अलग किया, स्थिति से संबंधित कुछ आयामों को संरक्षित किया, और MLA और RoPE के बीच संघर्ष को हल किया। इसके बाद, कुंजी-मान वैक्टर पर एकवचन मान अपघटन (SVD) तकनीक के माध्यम से निम्न-रैंक सन्निकटन किया गया, ताकि पूर्व-प्रशिक्षण ज्ञान को अधिकतम रूप से संरक्षित किया जा सके और साथ ही कैश स्थान को काफी कम किया जा सके। प्रयोग के परिणामों से पता चलता है कि माइक्रो-ट्यूनिंग के लिए पूर्व-प्रशिक्षण डेटा के केवल 0.3% से 0.6% का उपयोग करके, संक्रमण प्रक्रिया में प्रदर्शन हानि को मूल रूप से बहाल किया जा सकता है।
अन्य कुशल अनुमान तकनीकों के साथ संयोजन में, जैसे कि 4-बिट KV कैश परिमाणीकरण, Llama2-7B मॉडल के KV कैश में 92.19% की कमी आई है, जबकि प्रदर्शन हानि केवल 0.5% है। इस उपलब्धि ने संपीड़न तकनीक में MHA2MLA ढाँचे की उत्कृष्ट संगतता को प्रदर्शित किया है, साथ ही मॉडल की अनुमान क्षमता और लंबे संदर्भ प्रसंस्करण क्षमता को भी बनाए रखा है, जिससे संसाधन-कुशल बड़े भाषा मॉडल की तैनाती के लिए एक नया व्यवहार्य मार्ग प्रदान किया गया है।
हालांकि, शोध दल ने यह भी बताया कि प्रयोग हार्डवेयर की स्थिति से सीमित हैं, और इसमें Llama3 जैसे मॉडल शामिल नहीं हैं जिन्हें 128K लंबे संदर्भ माइक्रो-ट्यूनिंग की आवश्यकता है। भविष्य के शोध में अधिक मॉडल आर्किटेक्चर तक विस्तार करने और पैरामीटर-कुशल माइक्रो-ट्यूनिंग रणनीतियों को जोड़ने पर ध्यान केंद्रित किया जाएगा, ताकि संक्रमण प्रक्रिया में पैरामीटर अपडेट के पैमाने को और कम किया जा सके।