गूगल के सीईओ सुंदर पिचाई ने एक लॉन्च इवेंट में घोषणा की कि गूगल ने अपने नवीनतम बहु-मोडल बड़े भाषा मॉडल, जेममा-3 को ओपन सोर्स कर दिया है। यह मॉडल कम लागत और उच्च प्रदर्शन के लिए जाना जाता है और इस पर काफी ध्यान केंद्रित किया गया है।

QQ_1741827085099.png

जेममा-3 चार अलग-अलग पैरामीटर स्केल विकल्प प्रदान करता है, जो क्रमशः 1 बिलियन, 4 बिलियन, 12 बिलियन और 27 बिलियन पैरामीटर हैं। आश्चर्यजनक रूप से, 27 बिलियन पैरामीटर वाला सबसे बड़ा मॉडल केवल एक H100 ग्राफिक्स कार्ड पर कुशलतापूर्वक अनुमान लगा सकता है, जबकि इसी तरह के मॉडल को अक्सर दस गुना अधिक कंप्यूटिंग पावर की आवश्यकता होती है। इससे जेममा-3 वर्तमान में सबसे कम कंप्यूटिंग पावर की आवश्यकता वाले उच्च-प्रदर्शन मॉडल में से एक बन जाता है।

नवीनतम परीक्षण डेटा के अनुसार, जेममा-3 विभिन्न प्रकार के संवाद मॉडल की तुलना में अच्छा प्रदर्शन करता है, जो केवल प्रसिद्ध डीपसीक मॉडल से पीछे है, और ओपनएआई के o3-mini और लामा3 जैसे कई लोकप्रिय मॉडल को पार करता है। इस बार जारी किया गया जेममा-3 का आर्किटेक्चर पिछली दो पीढ़ियों के सामान्य डिकोडर ट्रांसफॉर्मर डिज़ाइन का अनुसरण करता है, लेकिन इसमें कई नवाचार और अनुकूलन जोड़े गए हैं। लंबे संदर्भ से उत्पन्न मेमोरी समस्याओं को हल करने के लिए, जेममा-3 ने स्थानीय और वैश्विक स्व-ध्यान परतों को इंटरलेव्ड आर्किटेक्चर को अपनाया है, जिससे मेमोरी उपयोग में उल्लेखनीय कमी आई है।

संदर्भ प्रसंस्करण क्षमता के मामले में, जेममा-3 द्वारा समर्थित संदर्भ लंबाई 128K टोकन तक विस्तारित की गई है, जो लंबे पाठ को संसाधित करने के लिए बेहतर समर्थन प्रदान करती है। इसके अलावा, जेममा-3 में बहु-मोडल क्षमता है, जो एक साथ टेक्स्ट और छवियों को संसाधित कर सकता है, और इसमें विज़न ट्रांसफॉर्मर-आधारित दृश्य एन्कोडर एकीकृत है, जो छवि प्रसंस्करण की गणना लागत को प्रभावी ढंग से कम करता है।

प्रशिक्षण के दौरान, जेममा-3 ने अधिक टोकन बजट का उपयोग किया, विशेष रूप से 27 बिलियन पैरामीटर वाले मॉडल में 14T टोकन का उपयोग किया गया, और मॉडल की भाषा प्रसंस्करण क्षमता को बढ़ाने के लिए बहुभाषी डेटा पेश किया गया, जो 140 भाषाओं का समर्थन करता है, जिनमें से 35 भाषाओं का सीधे उपयोग किया जा सकता है। जेममा-3 ने उन्नत ज्ञान आसवन तकनीक को अपनाया है, मॉडल के प्रदर्शन को बेहतर बनाने के लिए प्रशिक्षण के बाद के चरण में सुदृढीकरण शिक्षण का उपयोग किया गया है, खासकर सहायकता, तर्क क्षमता और बहुभाषी क्षमता जैसे पहलुओं में उल्लेखनीय सुधार हुआ है।

मूल्यांकन के बाद, जेममा-3 ने बहु-मोडल कार्यों में उत्कृष्ट प्रदर्शन किया, और लंबे पाठ प्रसंस्करण क्षमता भी प्रभावशाली है, जिसकी सटीकता 66% तक पहुँच गई है। इसके अलावा, संवाद क्षमता मूल्यांकन में, जेममा-3 का प्रदर्शन भी अग्रणी है, जो विभिन्न कार्यों में इसकी व्यापक क्षमता को दर्शाता है।

पता: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

मुख्य बातें:

🔍 जेममा-3 गूगल का नवीनतम ओपन-सोर्स बहु-मोडल बड़ा भाषा मॉडल है, जिसमें 1 बिलियन से 27 बिलियन तक पैरामीटर हैं, और कंप्यूटिंग पावर की आवश्यकता 10 गुना कम है।

💡 मॉडल ने एक अभिनव आर्किटेक्चर डिज़ाइन को अपनाया है, जो लंबे संदर्भ और बहु-मोडल डेटा को प्रभावी ढंग से संसाधित करता है, और एक साथ टेक्स्ट और छवियों के प्रसंस्करण का समर्थन करता है।

🌐 जेममा-3 140 भाषाओं के प्रसंस्करण का समर्थन करता है, और प्रशिक्षण और अनुकूलन के बाद, यह कई कार्यों में उत्कृष्ट प्रदर्शन करता है, जो इसकी मजबूत व्यापक क्षमता को दर्शाता है।