हाल ही में, स्टैनफोर्ड विश्वविद्यालय के बड़े मॉडल मूल्यांकन सूची HELM MMLU ने नवीनतम परिणाम जारी किए। स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर के निदेशक पर्सी लियांग ने लिखा कि अलीबाबा का टोंग यि कियान वेन Qwen2-72B मॉडल रैंकिंग में Llama3-70B को पार करते हुए सबसे अच्छा ओपन-सोर्स बड़ा मॉडल बन गया है।

MMLU (Massive Multitask Language Understanding, बड़े पैमाने पर बहु-कार्य भाषा समझ) उद्योग के सबसे प्रभावशाली बड़े मॉडल मूल्यांकन मानकों में से एक है। यह बुनियादी गणित, कंप्यूटर विज्ञान, कानून, इतिहास आदि 57 कार्यों को कवर करता है, जिसका उद्देश्य बड़े मॉडल के विश्व ज्ञान और समस्या समाधान क्षमता का परीक्षण करना है। हालाँकि, वास्तविक मूल्यांकन में, विभिन्न मॉडलों के परिणाम अक्सर असंगतता और तुलना की कमी का सामना करते हैं, जिसका मुख्य कारण गैर-मानक संकेत शब्द तकनीकों का उपयोग और ओपन-सोर्स मूल्यांकन ढांचे को एकीकृत न करना है।

QQ截图20240620111950.png

स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर (CRFM, Center for Research on Foundation Models) द्वारा प्रस्तुत फाउंडेशन मॉडल मूल्यांकन ढांचा HELM (फाउंडेशन मॉडलों के मूल्यांकन के लिए एक समग्र ढांचा) एक पारदर्शी, पुन: प्रस्तुत करने योग्य मूल्यांकन विधि बनाने के लिए समर्पित है। HELM ढांचा MMLU पर विभिन्न मॉडलों के मूल्यांकन परिणामों को मानकीकृत और पारदर्शी बनाने का कार्य करता है, जिससे मौजूदा MMLU मूल्यांकन में समस्याओं का समाधान होता है। उदाहरण के लिए, सभी मूल्यांकन मॉडल के लिए समान संकेत शब्दों का उपयोग किया जाता है, और प्रत्येक परीक्षण विषय पर मॉडल को समान 5 उदाहरण दिए जाते हैं ताकि संदर्भ अध्ययन किया जा सके।

स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर के निदेशक पर्सी लियांग ने हाल ही में सोशल मीडिया पर HELM MMLU की नवीनतम सूची साझा की। सूची से पता चलता है कि अलीबाबा का टोंग यि कियान वेन ओपन-सोर्स मॉडल Qwen2-72B पांचवें स्थान पर है, केवल Claude3Opus, GPT-4o, Gemini1.5pro और GPT-4 के बाद, यह सबसे उच्च रैंक वाला ओपन-सोर्स बड़ा मॉडल है, साथ ही यह सबसे अच्छा चीनी बड़ा मॉडल भी है।

टोंग यि कियान वेन Qwen2 श्रृंखला जून 2024 की शुरुआत में ओपन-सोर्स की गई, जिसमें 5 विभिन्न आकार के पूर्व-प्रशिक्षित और निर्देशात्मक सूक्ष्म मॉडल शामिल हैं। अब तक, Qwen श्रृंखला के मॉडल की डाउनलोड संख्या 16 मिलियन से अधिक हो गई है, जो इसके उद्योग में व्यापक मान्यता और मजबूत प्रदर्शन को दर्शाता है।

HELM MMLU के नवीनतम मूल्यांकन परिणाम न केवल Qwen2-72B की बहु-कार्य भाषा समझ में उत्कृष्टता को उजागर करते हैं, बल्कि वैश्विक एआई तकनीक प्रतियोगिता में चीनी बड़े मॉडल के उदय का भी प्रतीक हैं। तकनीक में निरंतर प्रगति के साथ, हम भविष्य में अधिक उत्कृष्ट चीनी बड़े मॉडल को अंतरराष्ट्रीय मंच पर देखने की उम्मीद करते हैं।