जैसे-जैसे कंपनियां बड़े भाषा मॉडल (LLMs) का अधिक से अधिक उपयोग कर रही हैं, मॉडल की ज्ञान सटीकता को बढ़ाने और भ्रांतियों को कम करने का तरीका एक महत्वपूर्ण चुनौती बन गया है। मेटा एआई के शोधकर्ताओं ने एक नए पेपर में "विस्तृत मेमोरी लेयर" का प्रस्ताव रखा है, जो शायद इस समस्या का समाधान प्रदान कर सके।
विस्तृत मेमोरी लेयर का मुख्य विचार LLMs में अधिक पैरामीटर जोड़ना है, बिना अनुमान लगाने के समय गणना संसाधनों को बढ़ाए, ताकि इसकी सीखने की क्षमता बढ़ सके। यह संरचना उन अनुप्रयोगों के लिए उपयुक्त है जिन्हें बड़ी मात्रा में तथ्यात्मक ज्ञान संग्रहीत करने की आवश्यकता होती है लेकिन वे अनुमान लगाने की गति बनाए रखना चाहते हैं।
पारंपरिक भाषा मॉडल "घनी परतों" का उपयोग करके बड़ी मात्रा में जानकारी को कोड करते हैं। घनी परत में, सभी पैरामीटर अनुमान लगाने के समय लगभग एक साथ सक्रिय होते हैं, जटिल कार्यों को सीखने में सक्षम होते हैं, लेकिन इसके लिए अतिरिक्त गणना और ऊर्जा संसाधनों की आवश्यकता होती है। जबकि सरल तथ्यात्मक ज्ञान के लिए, संघटित मेमोरी संरचना वाली सरल परत का उपयोग करना अधिक कुशल और समझने में आसान होता है, यही मेमोरी लेयर का कार्य है। मेमोरी लेयर ज्ञान को कोड और पुनर्प्राप्त करने के लिए सरल विरल सक्रियण और कुंजी-मूल्य खोज तंत्र का उपयोग करती है। हालांकि विरल परतों की मेमोरी खपत घनी परतों की तुलना में अधिक होती है, लेकिन यह केवल थोड़े से पैरामीटर का उपयोग करती है, जिससे गणना की दक्षता बढ़ती है।
हालांकि मेमोरी लेयर कई वर्षों से मौजूद हैं, आधुनिक गहन शिक्षण संरचनाओं में इनका उपयोग बहुत कम हुआ है, मुख्यतः क्योंकि इन्हें वर्तमान हार्डवेयर त्वरक के लिए अनुकूलित नहीं किया गया है। वर्तमान अग्रणी LLMs आमतौर पर "विशेषज्ञ मिश्रण" संरचना के किसी न किसी रूप का उपयोग करते हैं, जो मेमोरी लेयर के समान है। विशेषज्ञ मिश्रण मॉडल कई विशेषीकृत छोटे विशेषज्ञ घटकों से बने होते हैं, जो एक मार्गनिर्देशन तंत्र के माध्यम से अनुमान लगाने के समय विशेष विशेषज्ञ को सक्रिय करते हैं।
गणना में हल्की लेकिन मेमोरी में उच्च खपत की चुनौती को पार करने के लिए, मेटा के शोधकर्ताओं ने कई सुधार उपायों का प्रस्ताव रखा है, जिससे इसे बड़े पैमाने पर अनुप्रयोगों में व्यवहार्यता प्राप्त हो सके। उन्होंने मेमोरी लेयर के लिए समानांतरकरण को कॉन्फ़िगर किया, जिससे कई GPU पर लाखों कुंजी-मूल्य जोड़े संग्रहीत किए जा सकते हैं, बिना मॉडल की गति को धीमा किए। इसके अलावा, उन्होंने उच्च मेमोरी बैंडविड्थ संचालन को संभालने के लिए विशिष्ट CUDA कर्नेल विकसित किए और पैरामीटर साझा करने की तंत्र को लागू किया, जिससे कई मेमोरी लेयर एक समूह मेमोरी पैरामीटर साझा कर सकें।
Llama मॉडल में संशोधन करके, एक या एक से अधिक घनी परतों को साझा मेमोरी लेयर के साथ बदलकर, शोधकर्ताओं ने मेमोरी संवर्धित मॉडल का परीक्षण किया। उनके शोध में पाया गया कि मेमोरी मॉडल कई कार्यों में उत्कृष्ट प्रदर्शन करते हैं, विशेष रूप से उन कार्यों में जहां तथ्यात्मक ज्ञान की आवश्यकता होती है, प्रदर्शन स्पष्ट रूप से घनी आधार रेखा से बेहतर है, और यहां तक कि 2 से 4 गुना गणना संसाधनों का उपयोग करने वाले मॉडलों के साथ प्रतिस्पर्धा कर सकते हैं।
पेपर का लिंक: https://arxiv.org/abs/2412.09764
मुख्य बिंदु:
🧠 विस्तृत मेमोरी लेयर बिना गणना संसाधनों को बढ़ाए भाषा मॉडल की सीखने की क्षमता को बढ़ा सकती है।
💡 शोध में पाया गया कि मेमोरी लेयर कई कार्यों में उत्कृष्ट प्रदर्शन करती है, विशेष रूप से तथ्यात्मक ज्ञान की आवश्यकता वाले मामलों में।
🚀 मेटा के शोधकर्ताओं ने अगली पीढ़ी की एआई संरचनाओं में मेमोरी लेयर को एकीकृत करने का आह्वान किया है, ताकि भूलने और भ्रांतियों को कम किया जा सके।