Meta कंपनी ने हाल ही में एक क्रांतिकारी अनुसंधान परिणाम जारी किया है, जिसमें उन्होंने एक नई प्रकार की मेमोरी लेयर तकनीक विकसित की है, जो बड़े भाषा मॉडल (LLM) की तथ्यात्मक सटीकता को महत्वपूर्ण रूप से बढ़ा सकती है और पैरामीटर के पैमाने पर अभूतपूर्व विस्तार कर सकती है। यह तकनीक पारंपरिक न्यूरल नेटवर्क के विस्तार के तरीके को चुनौती देती है और भविष्य की AI आर्किटेक्चर डिजाइन के लिए नए दिशा-निर्देश प्रदान करती है।

इस अनुसंधान का मूल उद्देश्य एक प्रशिक्षित कुंजी-मूल्य खोज तंत्र का उपयोग करके मॉडल में अतिरिक्त पैरामीटर जोड़ना है, बिना गणनात्मक मात्रा (FLOPs) को बढ़ाए। इस विधि का मुख्य विचार यह है कि मेमोरी लेयर कीSparse सक्रियता का उपयोग करके गणनात्मक रूप से गहन फीडफॉरवर्ड लेयर को पूरक करना है, जिससे जानकारी के विशेष भंडारण और पुनर्प्राप्ति की क्षमता प्रदान की जा सके।

image.png

पारंपरिक घनत्व नेटवर्क की तुलना में, मेमोरी लेयर जानकारी के भंडारण को संभालने में अधिक कुशल है। उदाहरण के लिए, भाषा मॉडल को नाम, जन्मदिन, देशों की राजधानियों जैसी सरल संबंधित जानकारी सीखने की आवश्यकता होती है, मेमोरी लेयर इसे सरल कुंजी-मूल्य खोज तंत्र के माध्यम से हासिल कर सकती है, जो फीडफॉरवर्ड नेटवर्क के उपयोग की तुलना में अधिक प्रभावी है।

इस अनुसंधान का मुख्य योगदान मेमोरी लेयर के आकार को अभूतपूर्व स्तर तक बढ़ाना है, जो 1280 अरब पैरामीटर तक पहुंच गया है। प्रयोगात्मक परिणाम दर्शाते हैं कि उन्नत मेमोरी लेयर से लैस भाषा मॉडल न केवल गणनात्मक मात्रा को दोगुना करने वाले घने मॉडल से बेहतर हैं, बल्कि गणनात्मक और पैरामीटर मात्रा के मेल के मामले में भी मिश्रित विशेषज्ञ मॉडल को पार करते हैं। विशेष रूप से तथ्यात्मक कार्यों में, प्रदर्शन में वृद्धि अधिक स्पष्ट है।

image.png

Meta के शोधकर्ताओं ने Transformer नेटवर्क में एक या एक से अधिक फीडफॉरवर्ड नेटवर्क (FFN) को मेमोरी लेयर से बदलकर इस लक्ष्य को प्राप्त किया। यह प्रतिस्थापन विभिन्न आधार मॉडल आकारों (1.34 करोड़ से 80 करोड़ पैरामीटर) और मेमोरी क्षमता (1280 अरब पैरामीटर तक) पर लगातार लाभ दिखाता है। प्रयोगात्मक परिणाम दिखाते हैं कि मेमोरी लेयर भाषा मॉडल की तथ्यात्मक सटीकता को 100% से अधिक बढ़ा सकती है, जबकि कोड लेखन और सामान्य ज्ञान के मामलों में भी महत्वपूर्ण सुधार किया गया है। कई मामलों में, मेमोरी लेयर से लैस मॉडल यहां तक कि चार गुना गणनात्मक मात्रा की आवश्यकता वाले घने मॉडल के प्रदर्शन को भी प्राप्त कर सकते हैं।

शोधकर्ताओं ने मेमोरी लेयर के कई सुधार किए हैं ताकि इसके पैमाने पर उपयोग में आने वाली चुनौतियों का सामना किया जा सके:

गुणन की कुंजी खोज तंत्र का उपयोग करना: बड़े पैमाने पर मेमोरी लेयर में खोज कुंजी पुनर्प्राप्ति की बाधाओं को हल करने के लिए, इस अध्ययन ने प्रशिक्षित गुणन क्वांटाइजेशन कुंजी का उपयोग किया है, जिससे प्रत्येक खोज कुंजी जोड़े की तुलना से बचा जा सके।

मेमोरी लेयर का समानांतरकरण: मल्टी GPU वातावरण में मेमोरी लेयर के समानांतरकरण को लागू करने के लिए, शोधकर्ताओं ने एम्बेडिंग खोज और समेकन संचालन को कई GPUs पर वितरित किया।

साझा मेमोरी तंत्र: पैरामीटर के अधिकतम साझाकरण के लिए, शोधकर्ताओं ने सभी मेमोरी लेयर्स के बीच साझा मेमोरी पैरामीटर पूल का उपयोग किया।

प्रदर्शन और स्थिरता का अनुकूलन: शोधकर्ताओं ने अनुकूलित CUDA कोर का उपयोग करके एम्बेडिंगबैग संचालन को अनुकूलित किया, जिससे मेमोरी बैंडविड्थ उपयोग में महत्वपूर्ण सुधार हुआ। इसके अलावा, उन्होंने प्रशिक्षण प्रदर्शन और स्थिरता को बढ़ाने के लिए सिलु गैर-रेखीय इनपुट-संबंधित गेटिंग तंत्र भी पेश किया।

image.png

प्रयोगात्मक परिणामों ने निम्नलिखित महत्वपूर्ण खोजों का भी खुलासा किया:

मेमोरी लेयर का आकार प्रदर्शन पर महत्वपूर्ण प्रभाव डालता है: मेमोरी लेयर के आकार के साथ, तथ्यात्मक प्रश्न उत्तर का प्रदर्शन लगातार बढ़ता है।

एकाधिक मेमोरी लेयर एकल मेमोरी लेयर से बेहतर हैं: साझा पैरामीटर वाली कई मेमोरी लेयर प्रदर्शन को बढ़ा सकती हैं, लेकिन बहुत अधिक मेमोरी लेयर प्रदर्शन को कम कर सकती हैं। सबसे अच्छा मेमोरी लेयर संख्या तीन है।

मेमोरी लेयर तथ्य को तेजी से सीखती है: प्रशिक्षण के प्रारंभिक चरण में, मेमोरी लेयर से लैस मॉडल का प्रदर्शन तेजी से बढ़ता है, जो यह दर्शाता है कि मेमोरी लेयर मॉडल को तथ्य तेजी से सीखने में मदद करती है।

मेमोरी लेयर और घने लेयर एक-दूसरे को पूरक करते हैं: प्रयोगों से पता चलता है किSparse मेमोरी लेयर और घने फीडफॉरवर्ड लेयर दोनों अनिवार्य हैं।

मेमोरी लेयर तकनीक की प्रभावशीलता को सत्यापित करने के लिए, शोधकर्ताओं ने कई बेंचमार्क पर मूल्यांकन किया, जिसमें शामिल हैं:

तथ्यात्मक प्रश्न उत्तर (NaturalQuestions, TriviaQA)

मल्टी-हॉप प्रश्न उत्तर (HotpotQA)

विज्ञान और सामान्य ज्ञान (MMLU, HellaSwag, OBQA, PIQA)

कोड लेखन (HumanEval, MBPP)

परिणाम बताते हैं कि मेमोरी लेयर से लैस मॉडल इन परीक्षणों में सभी बेंचमार्क मॉडल से बेहतर प्रदर्शन करते हैं, विशेष रूप से तथ्यात्मक प्रश्न उत्तर पर, प्रदर्शन में वृद्धि सबसे स्पष्ट है।

Meta का यह अनुसंधान न केवल AI मॉडल के विस्तार के लिए नए विचार प्रदान करता है, बल्कि तथ्यात्मक प्रश्नों को हल करने और मॉडल के प्रदर्शन को बढ़ाने के लिए नए रास्ते भी खोलता है। शोधकर्ताओं का मानना है कि मेमोरी लेयर तकनीक में बहुत अधिक स्केलेबिलिटी है, और भविष्य में विभिन्न AI अनुप्रयोगों में व्यापक रूप से उपयोग किए जाने की संभावना है। उन्होंने यह भी बताया कि हालाँकि मेमोरी लेयर हार्डवेयर त्वरक के संदर्भ में चुनौतियों का सामना कर रही है, लेकिन उन्हें विश्वास है कि निरंतर अनुसंधान और अनुकूलन के माध्यम से, इसका प्रदर्शन पारंपरिक फीडफॉरवर्ड नेटवर्क के समान या उससे भी बेहतर हो सकता है।

इसके अलावा, Meta की शोध टीम नई शिक्षण विधियों के माध्यम से मेमोरी लेयर के प्रदर्शन को और बढ़ाने, मॉडल के भुलाने और भ्रांतियों को कम करने, और निरंतर सीखने को प्राप्त करने की भी आशा करती है।

इस अनुसंधान की घोषणा ने निश्चित रूप से AI क्षेत्र में नई ऊर्जा का संचार किया है और हमें भविष्य में AI के विकास की प्रतीक्षा करने के लिए प्रेरित किया है।

पत्र: https://arxiv.org/pdf/2412.09764