हाल ही में, Zyphra ने Zamba2-7B लॉन्च किया है, जो एक छोटे आकार का भाषा मॉडल है जिसमें अभूतपूर्व प्रदर्शन है, और इसके पैरामीटर की संख्या 7B है।

image.png

यह मॉडल दावा करता है कि यह गुणवत्ता और गति में वर्तमान प्रतियोगियों, जैसे Mistral-7B, गूगल के Gemma-7B और Meta के Llama3-8B को पार कर गया है।

image.png

Zamba2-7B का डिज़ाइन उन वातावरणों की आवश्यकताओं को पूरा करने के लिए किया गया है, जिन्हें शक्तिशाली भाषा प्रसंस्करण क्षमताओं की आवश्यकता है लेकिन हार्डवेयर की सीमाओं से बाधित हैं, जैसे कि उपभोक्ता स्तर के GPU पर डेटा प्रोसेसिंग या उपयोग। गुणवत्ता को बलिदान किए बिना दक्षता बढ़ाकर, Zyphra अधिक व्यापक उपयोगकर्ताओं को, चाहे वे व्यवसाय हों या व्यक्तिगत डेवलपर्स, उन्नत AI के लाभों का अनुभव कराने की उम्मीद करता है।

Zamba2-7B ने अपनी संरचना में कई नवाचार किए हैं, जिससे मॉडल की दक्षता और अभिव्यक्ति क्षमता बढ़ी है। पिछले मॉडल Zamba1 की तुलना में, Zamba2-7B ने दो साझा ध्यान ब्लॉकों को अपनाया है, जो सूचना प्रवाह और अनुक्रमों के बीच निर्भरता को बेहतर तरीके से संभालने में मदद करता है।

Mamba2 ब्लॉकों ने पूरी संरचना के核心 का निर्माण किया है, जिससे मॉडल के पैरामीटर उपयोग की दर पारंपरिक ट्रांसफार्मर मॉडल की तुलना में अधिक है। इसके अलावा, Zyphra ने साझा MLP ब्लॉक पर लो-रैंक अनुकूलन (LoRA) प्रक्षिप्ति का उपयोग किया है, जिसने हर स्तर की अनुकूलता को और बढ़ाया है, जबकि मॉडल की संक्षिप्तता को बनाए रखा है। इन नवाचारों के कारण, Zamba2-7B की प्रारंभिक प्रतिक्रिया समय 25% कम हो गया है, और प्रति सेकंड प्रोसेस किए जाने वाले टोकन की संख्या 20% बढ़ गई है।

Zamba2-7B की दक्षता और अनुकूलता को कठोर परीक्षणों द्वारा सत्यापित किया गया है। इस मॉडल को 30 ट्रिलियन टोकन के विशाल डेटासेट पर पूर्व-प्रशिक्षित किया गया है, जो सभी उच्च गुणवत्ता और कड़ाई से चयनित खुले डेटा हैं।

इसके अलावा, Zyphra ने एक "एनीलिंग" पूर्व-प्रशिक्षण चरण पेश किया है, जो तेजी से सीखने की दर को कम करता है ताकि उच्च गुणवत्ता वाले टोकन को अधिक प्रभावी ढंग से संसाधित किया जा सके। इस रणनीति के कारण, Zamba2-7B ने बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है, जो कि तर्क गति और गुणवत्ता दोनों में प्रतियोगियों को पार कर गया है, और यह प्राकृतिक भाषा समझने और उत्पन्न करने जैसे कार्यों को संभालने के लिए उपयुक्त है, बिना पारंपरिक उच्च गुणवत्ता वाले मॉडल की आवश्यकता के लिए विशाल गणना संसाधनों की।

Zamba2-7B छोटे आकार के भाषा मॉडल में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो उच्च गुणवत्ता और उच्च प्रदर्शन को बनाए रखते हुए, विशेष रूप से पहुँच योग्य होने पर ध्यान केंद्रित करता है। Zyphra ने अभिनव संरचना डिजाइन और कुशल प्रशिक्षण तकनीकों के माध्यम से एक ऐसा मॉडल विकसित किया है जो न केवल उपयोग में आसान है, बल्कि विभिन्न प्राकृतिक भाषा प्रसंस्करण आवश्यकताओं को भी पूरा करता है। Zamba2-7B का ओपन-सोर्स प्रकाशन, शोधकर्ताओं, डेवलपर्स और व्यवसायों को इसके संभावनाओं का पता लगाने के लिए आमंत्रित करता है, और उच्च स्तरीय प्राकृतिक भाषा प्रसंस्करण के विकास को व्यापक समुदाय में बढ़ावा देने की उम्मीद है।

प्रोजेक्ट लिंक: https://www.zyphra.com/post/zamba2-7b

https://github.com/Zyphra/transformers_zamba2

मुख्य बिंदु:

🌟 Zamba2-7B एक नई प्रकार का छोटा भाषा मॉडल है जिसे Zyphra ने पेश किया है, इसके पैरामीटर 7B तक पहुँचते हैं और यह कई प्रतियोगियों को पार करता है।  

⚙️ अभिनव संरचना और LoRA तकनीक का उपयोग करते हुए, इस मॉडल में दक्षता और अनुकूलता में महत्वपूर्ण सुधार हुआ है।  

📊 कठोर परीक्षणों के बाद, Zamba2-7B ने प्राकृतिक भाषा प्रसंस्करण कार्यों में गति और गुणवत्ता के प्रदर्शन में उत्कृष्टता दिखाई है।