हाल के वर्षों में, बड़े भाषा मॉडल (LLMs) ने प्राकृतिक भाषा प्रसंस्करण (NLP) क्षेत्र में महत्वपूर्ण प्रगति की है, जो पाठ निर्माण, सारांश और प्रश्नोत्तर जैसे विभिन्न अनुप्रयोगों में व्यापक रूप से उपयोग किए जाते हैं। हालाँकि, ये मॉडल शब्द दर शब्द भविष्यवाणी के टोकन स्तर की प्रक्रिया पर निर्भर करते हैं, जो संदर्भ को समझने में कठिनाई पैदा करती है और अक्सर असंगत आउटपुट उत्पन्न करती है। इसके अलावा, LLMs को बहुभाषी और बहु-मोडल अनुप्रयोगों में विस्तारित करने पर, उनकी गणना लागत और डेटा की आवश्यकता भी अपेक्षाकृत अधिक होती है। इन समस्याओं को हल करने के लिए, मेटा एआई ने एक पूरी तरह से नया दृष्टिकोण पेश किया है - बड़े अवधारणा मॉडल (LCMs)।

image.png

बड़े अवधारणा मॉडल (LCMs) पारंपरिक LLM आर्किटेक्चर में एक महत्वपूर्ण बदलाव का प्रतिनिधित्व करते हैं। वे दो महत्वपूर्ण नवाचार लाते हैं: पहले, LCMs एक उच्च-आयामी एम्बेडिंग स्पेस में मॉडलिंग करते हैं, न कि बिखरे हुए टोकन पर निर्भर करते हैं। इस एम्बेडिंग स्पेस को SONAR कहा जाता है, जो 200 से अधिक भाषाओं और विभिन्न मोडों का समर्थन करने के लिए डिज़ाइन किया गया है, जिसमें पाठ और आवाज़ शामिल हैं, जो भाषा और मोड के संबंध में प्रसंस्करण क्षमता प्रदान करता है। दूसरा, LCMs का डिज़ाइन सेमांटिक स्तर पर निर्बाध संक्रमण की अनुमति देता है, जो विभिन्न भाषाओं और मोड के बीच शक्तिशाली शून्य-शॉट सामान्यीकरण क्षमता को सक्षम करता है।

image.png

LCMs के核心 में, अवधारणा एन्कोडर और डिकोडर होते हैं, ये घटक इनपुट वाक्यों को SONAR के एम्बेडिंग स्पेस में मैप करते हैं और एम्बेडिंग को प्राकृतिक भाषा या अन्य मोड में डिकोड करते हैं। इन घटकों का स्थिर डिज़ाइन मॉड्यूलरिटी सुनिश्चित करता है, जिससे नए भाषाओं या मोड का विस्तार बिना पूरे मॉडल को फिर से प्रशिक्षित किए किया जा सकता है।

तकनीकी विवरण के संदर्भ में, LCMs एक स्तरित आर्किटेक्चर अपनाते हैं, जो मानव की तर्क प्रक्रिया की नकल करता है, जिससे लंबे पाठ की सामंजस्यता में सुधार होता है, जबकि यह समग्र संदर्भ को बाधित किए बिना स्थानीय संपादन की अनुमति देता है। प्रसंस्करण में उत्कृष्टता दिखाते हुए, LCMs ने प्रसार मॉडल को अपनाया है, जो पिछले एम्बेडिंग पर आधारित अगले SONAR एम्बेडिंग की भविष्यवाणी करते हैं। प्रयोगों में, एकल टॉवर और डुअल टॉवर दोनों प्रकार की आर्किटेक्चर का उपयोग किया गया, जिसमें डुअल टॉवर आर्किटेक्चर संदर्भ एन्कोडिंग और डीनॉइज़िंग को अलग-अलग संसाधित करता है, जिससे दक्षता में सुधार होता है।

image.png

प्रयोगात्मक परिणाम दिखाते हैं कि प्रसार-आधारित डुअल टॉवर LCM ने कई कार्यों में प्रतिस्पर्धात्मकता प्रदर्शित की है, जैसे कि बहुभाषी सारांश कार्य में, LCMs ने शून्य-शॉट स्थिति में आधार रेखा मॉडल की तुलना में बेहतर प्रदर्शन किया, जिससे उनकी अनुकूलन क्षमता का प्रमाण मिलता है। साथ ही, LCMs ने छोटे अनुक्रमों को संसाधित करते समय दक्षता और सटीकता दिखाई है, जो संबंधित मापदंडों में महत्वपूर्ण सुधार को प्रमाणित करता है।

मेटा एआई का बड़ा अवधारणा मॉडल पारंपरिक टोकन स्तर के भाषा मॉडल के लिए एक आशाजनक विकल्प प्रदान करता है, उच्च-आयामी अवधारणा एम्बेडिंग और मोड-निष्पक्ष प्रसंस्करण के माध्यम से मौजूदा विधियों की कुछ महत्वपूर्ण सीमाओं को हल करता है। इस आर्किटेक्चर पर अनुसंधान के साथ, LCMs भाषा मॉडल की क्षमताओं को फिर से परिभाषित करने की उम्मीद है, एआई-चालित संचार के लिए अधिक स्केलेबल और अनुकूलन योग्य तरीकों की पेशकश करता है।

प्रोजेक्ट लिंक: https://github.com/facebookresearch/large_concept_model

मुख्य बिंदुओं पर ध्यान दें:  

🌟 LCMs उच्च-आयामी एम्बेडिंग स्पेस में मॉडलिंग करते हैं, 200 से अधिक भाषाओं और विभिन्न मोड का समर्थन करते हैं।  

💡 LCMs स्तरित आर्किटेक्चर अपनाते हैं, लंबे पाठ की सामंजस्यता और स्थानीय संपादन क्षमता में सुधार करते हैं।  

🚀 अनुसंधान परिणाम दिखाते हैं कि LCMs बहुभाषी सारांश जैसे कार्यों में उत्कृष्ट प्रदर्शन करते हैं, जिसमें शक्तिशाली शून्य-शॉट सामान्यीकरण क्षमता है।