बड़े भाषा मॉडल (LLMs) के प्राकृतिक भाषा प्रसंस्करण (NLP) क्षेत्र में व्यापक उपयोग के साथ, पाठ निर्माण और भाषा समझ जैसे कार्यों के परिणामों में महत्वपूर्ण सुधार हुआ है। हालाँकि, अरबी भाषा की जटिल शब्द रूपांतरण, समृद्ध बोलियाँ और सांस्कृतिक पृष्ठभूमि के कारण, भाषा मॉडल के अनुप्रयोग में इसे कम आंका गया है।

कई उन्नत भाषा मॉडल मुख्य रूप से अंग्रेजी पर केंद्रित हैं, जिससे अरबी भाषा से संबंधित मॉडल या तो बहुत बड़े हैं, जिनकी गणना की मांग अधिक है, या सांस्कृतिक विवरणों को पूरी तरह से नहीं दर्शाते। 70 अरब से अधिक पैरामीटर वाले मॉडल जैसे Jais और AceGPT में मजबूत क्षमताएँ हैं, लेकिन अत्यधिक संसाधन खपत के कारण, उन्हें व्यापक रूप से लागू करना कठिन है। इसलिए, एक ऐसे अरबी मॉडल की आवश्यकता है जो दक्षता और प्रदर्शन दोनों को संतुलित करे।

इस समस्या को हल करने के लिए, Stability AI ने अरबी भाषा का Stable LM1.6B मॉडल पेश किया है, जिसमें बेसिक और चैट संस्करण शामिल हैं। यह मॉडल अरबी भाषा केंद्रित LLM के रूप में सांस्कृतिक संरेखण और भाषा समझ मानक परीक्षणों में उत्कृष्ट प्रदर्शन करता है। 70 अरब से अधिक पैरामीटर वाले बड़े मॉडल के विपरीत, अरबी Stable LM1.6B ने अच्छी प्रदर्शन के साथ गणना की मांग को कम किया है।

इस मॉडल को 1000 अरब से अधिक अरबी पाठ चिह्नों पर बारीकी से समायोजित किया गया है, जो आधुनिक मानक अरबी और विभिन्न बोलियों का मजबूत प्रतिनिधित्व सुनिश्चित करता है। विशेष रूप से, चैट संस्करण मॉडल सांस्कृतिक मानक परीक्षणों में उत्कृष्ट प्रदर्शन करता है, जो मजबूत सटीकता और संदर्भ समझने की क्षमता को दर्शाता है।

Stability AI का यह नया मॉडल वास्तविक दुनिया के निर्देश डेटा सेट और संश्लेषित संवाद निर्माण को मिलाता है, जिससे यह सांस्कृतिक रूप से संवेदनशील प्रश्नों को प्रभावी ढंग से संभाल सकता है, जबकि विभिन्न NLP कार्यों में व्यापक अनुप्रयोग बनाए रखता है।

तकनीकी दृष्टिकोण से, अरबी Stable LM1.6B ने अरबी भाषा की विशेषताओं के लिए उन्नत पूर्व-प्रशिक्षण ढांचे को अपनाया है, जिसमें प्रमुख डिज़ाइन तत्व शामिल हैं:  

टोकन ऑप्टिमाइजेशन: मॉडल Arcade100k टोकनाइज़र का उपयोग करता है, जो टोकन के आकार और शब्दावली के पैमाने को संतुलित करता है, अरबी पाठ में अत्यधिक टोकनिंग की समस्या को कम करता है।  

विविध डेटा सेट कवरेज: प्रशिक्षण डेटा का स्रोत व्यापक है, जिसमें समाचार लेख, ऑनलाइन सामग्री और ई-बुक्स शामिल हैं, जो साहित्यिक और बोलचाल की अरबी का व्यापक प्रतिनिधित्व सुनिश्चित करता है।  

निर्देश समायोजन: डेटा सेट में संश्लेषित निर्देश-प्रतिक्रिया जोड़ियाँ शामिल हैं, जिनमें पुनः कहने वाली वार्ताएँ और बहुविकल्पीय प्रश्न शामिल हैं, जो सांस्कृतिक विशेष कार्यों को संभालने की मॉडल की क्षमता को बढ़ाते हैं।  

अरबी Stable LM1.6B मॉडल अरबी NLP क्षेत्र में महत्वपूर्ण प्रगति का प्रतीक है, जिसने ArabicMMLU और CIDAR-MCQ जैसे मानक परीक्षणों में मजबूत परिणाम प्राप्त किए हैं। उदाहरण के लिए, चैट संस्करण ने ArabicMMLU मानक परीक्षण में 45.5% स्कोर किया, जो 700 मिलियन से 1.3 बिलियन के बीच अन्य मॉडलों को पीछे छोड़ता है। CIDAR-MCQ मानक परीक्षण में भी चैट मॉडल का प्रदर्शन काफी मजबूत रहा, जिसने 46% स्कोर किया।  

image.png

वास्तविक और संश्लेषित डेटा सेट को मिलाकर, इस मॉडल ने विस्तारशीलता को हासिल किया है, जबकि व्यावहारिकता को बनाए रखा है, जो विभिन्न NLP अनुप्रयोगों के लिए उपयुक्त है। अरबी Stable LM1.6B का लॉन्च न केवल अरबी NLP में गणना की दक्षता और सांस्कृतिक संरेखण की समस्याओं को हल करता है, बल्कि अरबी भाषा के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए एक विश्वसनीय उपकरण प्रदान करता है।  

चैट मॉडल: https://huggingface.co/stabilityai/ar-stablelm-2-chat

बेसिक मॉडल: https://huggingface.co/stabilityai/ar-stablelm-2-base

पत्र: https://arxiv.org/abs/2412.04277

मुख्य बिंदु:  

🌟 अरबी Stable LM1.6B मॉडल अरबी NLP में गणना की दक्षता और सांस्कृतिक संरेखण की समस्याओं को हल करने के लिए डिज़ाइन किया गया है।  

📈 इस मॉडल ने कई मानक परीक्षणों में उत्कृष्ट प्रदर्शन किया है, जो कई बड़े पैरामीटर वाले मॉडलों को पीछे छोड़ता है।  

🌐 Stability AI ने वास्तविक डेटा और संश्लेषित डेटा को मिलाकर अरबी मॉडल की व्यावहारिकता और विस्तारशीलता को प्राप्त किया है।