अली Qwen2-72B ने HELM सूची में शीर्ष स्थान हासिल किया: प्रदर्शन Llama3-70B को पार करता है

AIbase

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Jun 20, 2024

442

हाल ही में, स्टैनफोर्ड विश्वविद्यालय के बड़े मॉडल मूल्यांकन सूची HELM MMLU ने नवीनतम परिणाम जारी किए। स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर के निदेशक पर्सी लियांग ने लिखा कि अलीबाबा का टोंग यि कियान वेन Qwen2-72B मॉडल रैंकिंग में Llama3-70B को पार करते हुए सबसे अच्छा ओपन-सोर्स बड़ा मॉडल बन गया है।

MMLU (Massive Multitask Language Understanding, बड़े पैमाने पर बहु-कार्य भाषा समझ) उद्योग के सबसे प्रभावशाली बड़े मॉडल मूल्यांकन मानकों में से एक है। यह बुनियादी गणित, कंप्यूटर विज्ञान, कानून, इतिहास आदि 57 कार्यों को कवर करता है, जिसका उद्देश्य बड़े मॉडल के विश्व ज्ञान और समस्या समाधान क्षमता का परीक्षण करना है। हालाँकि, वास्तविक मूल्यांकन में, विभिन्न मॉडलों के परिणाम अक्सर असंगतता और तुलना की कमी का सामना करते हैं, जिसका मुख्य कारण गैर-मानक संकेत शब्द तकनीकों का उपयोग और ओपन-सोर्स मूल्यांकन ढांचे को एकीकृत न करना है।

QQ截图20240620111950.png

स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर (CRFM, Center for Research on Foundation Models) द्वारा प्रस्तुत फाउंडेशन मॉडल मूल्यांकन ढांचा HELM (फाउंडेशन मॉडलों के मूल्यांकन के लिए एक समग्र ढांचा) एक पारदर्शी, पुन: प्रस्तुत करने योग्य मूल्यांकन विधि बनाने के लिए समर्पित है। HELM ढांचा MMLU पर विभिन्न मॉडलों के मूल्यांकन परिणामों को मानकीकृत और पारदर्शी बनाने का कार्य करता है, जिससे मौजूदा MMLU मूल्यांकन में समस्याओं का समाधान होता है। उदाहरण के लिए, सभी मूल्यांकन मॉडल के लिए समान संकेत शब्दों का उपयोग किया जाता है, और प्रत्येक परीक्षण विषय पर मॉडल को समान 5 उदाहरण दिए जाते हैं ताकि संदर्भ अध्ययन किया जा सके।

स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर के निदेशक पर्सी लियांग ने हाल ही में सोशल मीडिया पर HELM MMLU की नवीनतम सूची साझा की। सूची से पता चलता है कि अलीबाबा का टोंग यि कियान वेन ओपन-सोर्स मॉडल Qwen2-72B पांचवें स्थान पर है, केवल Claude3Opus, GPT-4o, Gemini1.5pro और GPT-4 के बाद, यह सबसे उच्च रैंक वाला ओपन-सोर्स बड़ा मॉडल है, साथ ही यह सबसे अच्छा चीनी बड़ा मॉडल भी है।

टोंग यि कियान वेन Qwen2 श्रृंखला जून 2024 की शुरुआत में ओपन-सोर्स की गई, जिसमें 5 विभिन्न आकार के पूर्व-प्रशिक्षित और निर्देशात्मक सूक्ष्म मॉडल शामिल हैं। अब तक, Qwen श्रृंखला के मॉडल की डाउनलोड संख्या 16 मिलियन से अधिक हो गई है, जो इसके उद्योग में व्यापक मान्यता और मजबूत प्रदर्शन को दर्शाता है।

HELM MMLU के नवीनतम मूल्यांकन परिणाम न केवल Qwen2-72B की बहु-कार्य भाषा समझ में उत्कृष्टता को उजागर करते हैं, बल्कि वैश्विक एआई तकनीक प्रतियोगिता में चीनी बड़े मॉडल के उदय का भी प्रतीक हैं। तकनीक में निरंतर प्रगति के साथ, हम भविष्य में अधिक उत्कृष्ट चीनी बड़े मॉडल को अंतरराष्ट्रीय मंच पर देखने की उम्मीद करते हैं।

ओपन-सोर्स मल्टी-मोडल मॉडल Molmo को छवियों में वस्तुओं की पहचान करने और सटीक वर्णन उत्पन्न करने में सक्षम

हाल ही में, एक ओपन-सोर्स मल्टी-मोडल आर्टिफिशियल इंटेलिजेंस मॉडल Molmo ने उद्योग में व्यापक ध्यान आकर्षित किया है। यह Qwen2-72B के आधार पर, OpenAI के CLIP को दृश्य प्रसंस्करण इंजन के रूप में उपयोग करते हुए, अपने उत्कृष्ट प्रदर्शन और नवोन्मेषक कार्यों के साथ पारंपरिक व्यावसायिक मॉडलों के प्रभुत्व को चुनौती दे रहा है। Molmo की प्रमुख विशेषता इसकी प्रभावी प्रदर्शन क्षमता है। हालांकि इसका आकार अपेक्षाकृत छोटा है, लेकिन इसकी प्रसंस्करण क्षमता बड़े प्रतिद्वंद्वियों के साथ तुलना करने के लिए पर्याप्त है जो आकार में दस गुना अधिक हैं। यह छोटा लेकिन सटीक डिज़ाइन दृष्टिकोण मॉडल की दक्षता को भी बढ़ाता है।

अलीबाबा ने 2025 वित्त वर्ष के Q1 वित्तीय परिणाम की घोषणा की: टोंग यी बड़े मॉडल की डाउनलोडिंग संख्या 20 मिलियन को पार कर गई

अलीबाबा समूह ने हाल ही में 2025 वित्तीय वर्ष की पहली तिमाही के प्रदर्शन रिपोर्ट की घोषणा की, जिसमें अली क्लाउड ने विशेष रूप से अच्छा प्रदर्शन किया। वित्तीय रिपोर्ट से पता चलता है कि अली क्लाउड की आय में पिछले वर्ष की तुलना में 6% की वृद्धि हुई, जो 265.49 अरब युआन तक पहुंच गई, AI संबंधित उत्पादों की आय में तिगुनी वृद्धि हुई, और सार्वजनिक क्लाउड व्यवसाय ने भी दो अंकों की वृद्धि देखी। समायोजित EBITA लाभ में पिछले वर्ष की तुलना में 155% की वृद्धि हुई, जो 23.37 अरब युआन तक पहुंच गई।

Arcee AI ने ओपन-सोर्स भाषा मॉडल Arcee-Nova लॉन्च किया: Qwen2-72B पर आधारित, GPT-4 के समान प्रदर्शन

Arcee AI ने हाल ही में अपने नवीनतम ओपन-सोर्स भाषा मॉडल Arcee-Nova को लॉन्च किया, जो Qwen2-72B-Instruct पर आधारित है और GPT-4 की क्षमता के करीब है। यह उत्कृष्ट तार्किक तर्क, रचनात्मक लेखन, कोड生成, भाषा समझ और ग्राहक सेवा अनुप्रयोगों जैसी कई विविध क्षमताओं का प्रदर्शन करता है। विभिन्न सामान्य डेटा सेट ट्यूनिंग और मजबूत सीखने के अनुकूलन के बाद, Arcee-Nova में अंतर-क्षेत्रीय अनुकूलनशीलता है और यह OpenLLM Leaderboard2.0 में प्रमुख स्थान पर प्रदर्शन करता है।

बायडू वेनशिन बड़े मॉडल 4.0 टर्बो企业 के लिए खुला, कई प्रमुख मॉडल की कीमत में कटौती

2024 विश्व आर्टिफिशियल इंटेलिजेंस कॉन्फ्रेंस के दौरान, बायडू के उपाध्यक्ष शि गुआंगजुन ने वेनशिन यियान 4.0 टर्बो मॉडल के उद्यम उपयोगकर्ताओं के लिए पूर्ण रूप से खोलने की घोषणा की और इसकी मूल्य निर्धारण रणनीति का परिचय दिया। वेनशिन यियान 4.0 टर्बो का इनपुट मूल्य 0.03 युआन प्रति हजार टोकन है, और आउटपुट मूल्य 0.06 युआन प्रति हजार टोकन है। शि गुआंगजुन ने指出 किया कि यदि 3:1 के इनपुट-आउटपुट अनुपात के अनुसार गणना की जाए, तो नए मॉडल की कीमत पिछले वेनशिन यियान 4.0 सामान्य संस्करण की तुलना में 70% कम है।

AI समाचार

अली Qwen2-72B ने HELM सूची में शीर्ष स्थान हासिल किया: प्रदर्शन Llama3-70B को पार करता है

AIbase

संबंधित AI समाचार अनुशंसाएँ

ओपन-सोर्स मल्टी-मोडल मॉडल Molmo को छवियों में वस्तुओं की पहचान करने और सटीक वर्णन उत्पन्न करने में सक्षम

Arcee AI ने ओपन-सोर्स भाषा मॉडल Arcee-Nova लॉन्च किया: Qwen2-72B पर आधारित, GPT-4 के समान प्रदर्शन

बायडू वेनशिन बड़े मॉडल 4.0 टर्बो企业 के लिए खुला, कई प्रमुख मॉडल की कीमत में कटौती