हाल ही में, Answer.AI और LightOn ने ओपन-सोर्स भाषा मॉडल ModernBERT जारी किया है, जो कि गूगल के BERT का एक महत्वपूर्ण अपग्रेड है। डेवलपर्स के अनुसार, ModernBERT की प्रोसेसिंग स्पीड, दक्षता और गुणवत्ता में उल्लेखनीय सुधार हुआ है। यह मॉडल अपने पूर्ववर्ती की तुलना में चार गुना तेज है और कम मेमोरी का उपयोग करता है।

ModernBERT का डिज़ाइन इसे 8192 टोकन तक के टेक्स्ट को प्रोसेस करने की अनुमति देता है, जो मौजूदा एन्कोडिंग मॉडल की सामान्य 512 टोकन सीमा से 16 गुना अधिक है। इसके अलावा, ModernBERT पहला व्यापक रूप से प्रशिक्षित प्रोग्रामिंग कोड एन्कोडिंग मॉडल है, जो StackOverflow प्रश्नोत्तर डेटासेट पर 80 से अधिक स्कोर करता है, और एन्कोडिंग मॉडल का नया रिकॉर्ड स्थापित करता है।

image.png

सामान्य भाषा समझ मूल्यांकन (GLUE) में, ModernBERT-Large की प्रोसेसिंग स्पीड और सटीकता का सर्वोत्तम संतुलन प्राप्त हुआ है, प्रत्येक टोकन की प्रोसेसिंग समय लगभग 20 मिलीसेकंड है, और स्कोर 90 है। डेवलपमेंट टीम ने इसे एक ट्यून की गई होंडा सिविक की तरह बताया, जो रोज़मर्रा के उपयोग में विश्वसनीय और प्रभावी है।

मौजूदा बड़े भाषा मॉडल जैसे GPT-4 की तुलना में, ModernBERT बड़े पैमाने पर टेक्स्ट प्रोसेसिंग पर लागत को काफी कम करता है। GPT-4 की प्रत्येक क्वेरी की लागत कुछ सेंट होती है, जबकि ModernBERT को स्थानीय रूप से चलाया जा सकता है, जो तेज और सस्ता है। उदाहरण के लिए, FineWeb Edu परियोजना में 150 अरब टोकन को फ़िल्टर करने में BERT मॉडल की लागत 60,000 डॉलर थी, जबकि गूगल के Gemini Flash डिकोडर का उपयोग करने पर लागत 1 मिलियन डॉलर से अधिक हो गई।

डेवलपमेंट टीम ने कहा कि ModernBERT विभिन्न वास्तविक अनुप्रयोगों के लिए बहुत उपयुक्त है, जिसमें रिट्रीवल-एनहांस्ड जनरेशन (RAG) सिस्टम, कोड सर्च और सामग्री समीक्षा शामिल हैं। GPT-4 के विपरीत, जिसे विशेष हार्डवेयर की आवश्यकता होती है, ModernBERT सामान्य उपभोक्ता स्तर के गेम GPU पर प्रभावी रूप से चल सकता है।

वर्तमान में, ModernBERT के दो संस्करण उपलब्ध हैं: बेस मॉडल में 1.39 करोड़ पैरामीटर हैं, जबकि बड़े संस्करण में 3.95 करोड़ पैरामीटर हैं। दोनों संस्करण अब Hugging Face पर प्रकाशित किए गए हैं, और उपयोगकर्ता इन्हें मौजूदा BERT मॉडल के स्थान पर सीधे उपयोग कर सकते हैं। डेवलपमेंट टीम अगले वर्ष एक बड़े संस्करण को लॉन्च करने की योजना बना रही है, लेकिन मल्टी-मोडल क्षमताओं की योजना नहीं है। नए अनुप्रयोगों के विकास को बढ़ावा देने के लिए, उन्होंने एक प्रतियोगिता भी शुरू की है, जिसमें पांच सर्वश्रेष्ठ प्रदर्शकों को 100 डॉलर और छह महीने की Hugging Face प्रीमियम सदस्यता पुरस्कार में दी जाएगी।

2018 में गूगल द्वारा BERT के लॉन्च के बाद से, यह मॉडल सबसे लोकप्रिय भाषा मॉडलों में से एक रहा है, और HuggingFace पर इसकी मासिक डाउनलोड संख्या 68 मिलियन से अधिक है।

परियोजना का प्रवेश: https://huggingface.co/blog/modernbert

मुख्य बिंदु:

🌟 ModernBERT, BERT की तुलना में चार गुना तेज है, और 8192 टोकन तक के टेक्स्ट को प्रोसेस कर सकता है।

💰 GPT-4 की तुलना में, ModernBERT बड़े पैमाने पर टेक्स्ट प्रोसेसिंग पर लागत को काफी कम करता है और अधिक कुशलता से चलता है।

📊 यह मॉडल विशेष रूप से प्रोग्रामिंग कोड को प्रोसेस करने में कुशल है, StackOverflow प्रश्नोत्तर डेटासेट पर 80 से अधिक स्कोर करता है, और नया रिकॉर्ड स्थापित करता है।