अमेरिकी तकनीकी दिग्गज मेटा ने अपने सबसे शक्तिशाली ओपन-सोर्स आर्टिफिशियल इंटेलिजेंस मॉडल Llama4 लॉन्च किया है। इस पहली रिलीज़ में दो मॉडल शामिल हैं, Llama4Scout और Llama4Maverick।
Llama4Scout में 1090 अरब पैरामीटर, 170 अरब सक्रिय पैरामीटर, 16 विशेषज्ञ और सबसे महत्वपूर्ण बात यह है कि 10 मिलियन संदर्भों का समर्थन करता है, जो लगभग 20+ घंटे के वीडियो को संसाधित करने के बराबर है, और यह केवल एकल H100GPU (Int4 क्वांटाइजेशन के बाद) पर चल सकता है। बेंचमार्क परीक्षणों में, इसके प्रदर्शन ने Gemma3, Gemini2.0Flash - Lite, और Mistral3.1 को पार कर लिया है।
Llama4Maverick में 4000 अरब पैरामीटर, 170 अरब सक्रिय पैरामीटर, 128 विशेषज्ञ और 10 लाख संदर्भ हैं। बड़े मॉडल LMSYS रैंकिंग में, Llama4Maverick दूसरे स्थान पर पहुँच गया है (ELO स्कोर 1417), केवल क्लोज्ड-सोर्स Gemini2.5Pro से पीछे, और आधे पैरामीटर के साथ ही इसकी रिज़निंग एन्कोडिंग क्षमता DeepSeek - v3-0324 के बराबर है।
इसके अलावा, एक और अधिक शक्तिशाली 2 ट्रिलियन पैरामीटर वाला Llama4Behemoth अगले कुछ महीनों में लॉन्च किया जाएगा, जिसमें 2880 अरब सक्रिय पैरामीटर और 16 विशेषज्ञ हैं। वर्तमान में STEM बेंचमार्क परीक्षणों में, इसने GPT -4.5, Claude Sonnet3.7 और Gemini2.0Pro को पार कर लिया है।
Llama4 श्रृंखला ने पहली बार मिश्रित विशेषज्ञ (MoE) आर्किटेक्चर का उपयोग किया है, जो उपयोगकर्ता क्वेरी का उत्तर देते समय और प्रशिक्षण में अधिक कुशल है। Llama4 मूल रूप से बहु-मॉडल मॉडल भी है, जो प्रारंभिक फ्यूज़न तकनीक का उपयोग करता है, जो पाठ और दृश्य टोकन को निर्बाध रूप से एकीकृत कर सकता है। साथ ही, मेटा ने दृश्य एन्कोडर को अपग्रेड किया है और हाइपरपैरामीटर को अनुकूलित करने के लिए एक नई प्रशिक्षण विधि MetaP विकसित की है। आज से, डेवलपर llama.com और Hugging Face से इन दो नवीनतम मॉडलों को डाउनलोड कर सकते हैं।
मुख्य बातें:
- 🌟मेटा ने ओपन-सोर्स मल्टी-मॉडल Llama4 लॉन्च किया है, जिसमें पहली रिलीज़ में Llama4Scout और Llama4Maverick शामिल हैं, और भविष्य में Llama4Behemoth भी लॉन्च किया जाएगा।
- 💪Llama4 का प्रदर्शन शक्तिशाली है, और बड़े मॉडल रैंकिंग में इसका प्रदर्शन उत्कृष्ट है, और इसकी रिज़निंग एन्कोडिंग क्षमता अन्य उत्कृष्ट मॉडलों के बराबर या उनसे भी बेहतर है।
- 🛠️MoE आर्किटेक्चर का उपयोग करता है, मूल रूप से बहु-मॉडल मॉडल है, इसमें तकनीकी उन्नयन और नई प्रशिक्षण विधि है, और डेवलपर इसका उपयोग कर सकते हैं।