बड़े भाषा मॉडल (LLM) ने प्राकृतिक भाषा प्रसंस्करण (NLP) के क्षेत्र में महत्वपूर्ण प्रगति की है, जिससे यह पाठ उत्पादन, संक्षेपण और प्रश्न-उत्तर जैसे अनुप्रयोगों में चमकता है। हालाँकि, LLM की टोकन-स्तरीय प्रसंस्करण (एक बार में एक शब्द की भविष्यवाणी करना) पर निर्भरता कुछ चुनौतियाँ भी लाती है। यह विधि मानव संचार के तरीके के विपरीत है, जो सामान्यतः उच्च स्तर के अमूर्त स्तर पर काम करती है, जैसे वाक्य या विचार।

टोकन-स्तरीय मॉडलिंग उन कार्यों में भी प्रभावी नहीं है जिनमें लंबे संदर्भ की समझ की आवश्यकता होती है, और यह असंगत आउटपुट उत्पन्न कर सकता है। इसके अलावा, इन मॉडलों को बहुभाषी और बहु-आकृति अनुप्रयोगों में विस्तारित करना गणनात्मक रूप से महंगा है और इसके लिए बहुत सारे डेटा की आवश्यकता होती है। इन समस्याओं को हल करने के लिए, मेटा एआई के शोधकर्ताओं ने एक नई विधि प्रस्तुत की है: बड़े अवधारणा मॉडल (LCM)।

image.png

बड़े अवधारणा मॉडल: अर्थपूर्ण समझ का एक नया दृष्टिकोण

मेटा एआई का बड़ा अवधारणा मॉडल (LCM) पारंपरिक LLM आर्किटेक्चर में एक बदलाव का प्रतिनिधित्व करता है। LCM दो प्रमुख नवाचारों को पेश करता है:

उच्च-आयामी एम्बेडिंग स्पेस मॉडलिंग: LCM अब विभाजित टोकनों पर कार्य नहीं करता है, बल्कि उच्च-आयामी एम्बेडिंग स्पेस में गणनाएँ करता है। यह स्पेस अमूर्त अर्थ इकाइयों को दर्शाता है, जिन्हें अवधारणाएँ कहा जाता है, जो वाक्य या संवाद के अनुरूप हैं। इस एम्बेडिंग स्पेस का नाम SONAR है, जिसे भाषा और आकृति से स्वतंत्र रूप से डिज़ाइन किया गया है, जो 200 से अधिक भाषाओं और विभिन्न आकृतियों, जैसे पाठ और भाषण का समर्थन करता है।

भाषा और आकृति से स्वतंत्र मॉडलिंग: विशिष्ट भाषा या आकृति से बंधे मॉडलों के विपरीत, LCM शुद्ध अर्थ स्तर पर सामग्री को संसाधित और उत्पन्न करता है। यह डिज़ाइन भाषा और आकृति के बीच निर्बाध स्विचिंग की अनुमति देता है, जिससे मजबूत ज़ीरो-शॉट सामान्यीकरण संभव होता है।

LCM का केंद्र अवधारणा एन्कोडर और डिकोडर है, जो इनपुट वाक्यों को SONAR के एम्बेडिंग स्पेस में मैप करता है और एम्बेडिंग को प्राकृतिक भाषा या अन्य आकृतियों में डिकोड करता है। ये घटक स्थिर हैं, जो मॉड्यूलरिटी को सुनिश्चित करते हैं, और नए भाषाओं या आकृतियों में विस्तारित करना आसान होता है, बिना पूरे मॉडल को फिर से प्रशिक्षित किए।

image.png

LCM के तकनीकी विवरण और लाभ

LCM ने भाषा मॉडलिंग को आगे बढ़ाने के लिए कई नवाचार पेश किए हैं:

परतदार संरचना: LCM एक परतदार संरचना अपनाता है, जो मानव तर्क प्रक्रिया को दर्शाता है। यह डिज़ाइन लंबे पाठ की संगति को बढ़ाता है, और व्यापक संदर्भ को बिना प्रभावित किए स्थानीय संपादन की अनुमति देता है।

विसर्जन आधारित उत्पन्न करना: विसर्जन मॉडल को LCM के सबसे प्रभावी डिज़ाइन के रूप में माना जाता है। ये मॉडल पिछले एम्बेडिंग के आधार पर अगला SONAR एम्बेडिंग की भविष्यवाणी करते हैं। दो आर्किटेक्चर का अन्वेषण किया गया है:

एकल टॉवर: एकल ट्रांसफार्मर डिकोडर संदर्भ एन्कोडिंग और शोर को हटाने का कार्य करता है।

डुअल टॉवर: संदर्भ एन्कोडिंग और शोर को हटाने को अलग करता है, प्रत्येक कार्य के लिए विशेष घटक प्रदान करता है।

विस्तारशीलता और दक्षता: टोकन-स्तरीय प्रसंस्करण की तुलना में, अवधारणा-स्तरीय मॉडलिंग अनुक्रम की लंबाई को कम करती है, मानक ट्रांसफार्मर की द्वितीयक जटिलता को हल करती है, और लंबे संदर्भ को अधिक प्रभावी ढंग से संभालने में सक्षम होती है।

ज़ीरो-शॉट सामान्यीकरण: LCM SONAR के व्यापक बहुभाषी और बहु-आकृति समर्थन का लाभ उठाकर अदृश्य भाषाओं और आकृतियों पर मजबूत ज़ीरो-शॉट सामान्यीकरण क्षमता प्रदर्शित करता है।

खोज और रोकने के मानदंड:  "दस्तावेज़ समाप्त" अवधारणा के साथ दूरी के आधार पर रोकने के मानदंड की खोज एल्गोरिदम, बिना फाइन-ट्यूनिंग के, संगत और पूर्ण उत्पन्न करने को सुनिश्चित करती है।

प्रयोगात्मक परिणामों की अंतर्दृष्टि

मेटा एआई के प्रयोगों ने LCM की क्षमता को उजागर किया। 70 अरब पैरामीटर में विस्तारित एक विसर्जन आधारित डुअल टॉवर LCM ने संक्षेपण जैसे कार्यों में प्रतिस्पर्धात्मक लाभ प्रदर्शित किया। मुख्य परिणामों में शामिल हैं:

बहुभाषी संक्षेपण: LCM कई भाषाओं में ज़ीरो-शॉट संक्षेपण में बेंचमार्क मॉडलों से बेहतर प्रदर्शन करता है, जो इसकी अनुकूलता को प्रदर्शित करता है।

संक्षेपण विस्तार कार्य: यह नवीनतम मूल्यांकन कार्य LCM की संगति और स्थिरता के साथ विस्तारित संक्षेपण उत्पन्न करने की क्षमता को प्रदर्शित करता है।

दक्षता और सटीकता: LCM छोटे अनुक्रमों को टोकन-आधारित मॉडलों की तुलना में अधिक दक्षता से संभालता है, जबकि सटीकता बनाए रखता है। शोध परिणामों में दिखाया गया है कि आपसी जानकारी और तुलना सटीकता जैसे मापदंडों में महत्वपूर्ण सुधार हुआ है।

निष्कर्ष

मेटा एआई का बड़ा अवधारणा मॉडल पारंपरिक टोकन-आधारित भाषा मॉडलों के लिए एक आशाजनक विकल्प प्रदान करता है। उच्च-आयामी अवधारणा एम्बेडिंग और आकृति से स्वतंत्र प्रसंस्करण का लाभ उठाकर, LCM मौजूदा विधियों की प्रमुख सीमाओं को हल करता है। इसकी परतदार संरचना संगति और दक्षता को बढ़ाती है, जबकि इसकी मजबूत ज़ीरो-शॉट सामान्यीकरण क्षमता इसे विभिन्न भाषाओं और आकृतियों में उपयोगी बनाती है। इस आर्किटेक्चर पर अनुसंधान के निरंतरता के साथ, LCM भाषा मॉडलों की क्षमताओं को फिर से परिभाषित करने की संभावना रखता है, एआई संचालित संचार के लिए अधिक विस्तारशील और अनुकूलनशील दृष्टिकोण प्रदान करता है।

संक्षेप में, मेटा का LCM मॉडल एआई भाषा समझ के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। यह हमें पारंपरिक टोकन-स्तरीय मॉडलिंग से परे जाने का एक नया दृष्टिकोण प्रदान करता है, जो भविष्य के एआई अनुप्रयोगों में महत्वपूर्ण भूमिका निभाने की उम्मीद है।