हाल ही में, स्टैनफोर्ड विश्वविद्यालय के बड़े मॉडल मूल्यांकन सूची HELM MMLU ने नवीनतम परिणाम जारी किए। स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर के निदेशक पर्सी लियांग ने लिखा कि अलीबाबा का टोंग यि कियान वेन Qwen2-72B मॉडल रैंकिंग में Llama3-70B को पार करते हुए सबसे अच्छा ओपन-सोर्स बड़ा मॉडल बन गया है।
MMLU (Massive Multitask Language Understanding, बड़े पैमाने पर बहु-कार्य भाषा समझ) उद्योग के सबसे प्रभावशाली बड़े मॉडल मूल्यांकन मानकों में से एक है। यह बुनियादी गणित, कंप्यूटर विज्ञान, कानून, इतिहास आदि 57 कार्यों को कवर करता है, जिसका उद्देश्य बड़े मॉडल के विश्व ज्ञान और समस्या समाधान क्षमता का परीक्षण करना है। हालाँकि, वास्तविक मूल्यांकन में, विभिन्न मॉडलों के परिणाम अक्सर असंगतता और तुलना की कमी का सामना करते हैं, जिसका मुख्य कारण गैर-मानक संकेत शब्द तकनीकों का उपयोग और ओपन-सोर्स मूल्यांकन ढांचे को एकीकृत न करना है।
स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर (CRFM, Center for Research on Foundation Models) द्वारा प्रस्तुत फाउंडेशन मॉडल मूल्यांकन ढांचा HELM (फाउंडेशन मॉडलों के मूल्यांकन के लिए एक समग्र ढांचा) एक पारदर्शी, पुन: प्रस्तुत करने योग्य मूल्यांकन विधि बनाने के लिए समर्पित है। HELM ढांचा MMLU पर विभिन्न मॉडलों के मूल्यांकन परिणामों को मानकीकृत और पारदर्शी बनाने का कार्य करता है, जिससे मौजूदा MMLU मूल्यांकन में समस्याओं का समाधान होता है। उदाहरण के लिए, सभी मूल्यांकन मॉडल के लिए समान संकेत शब्दों का उपयोग किया जाता है, और प्रत्येक परीक्षण विषय पर मॉडल को समान 5 उदाहरण दिए जाते हैं ताकि संदर्भ अध्ययन किया जा सके।
स्टैनफोर्ड विश्वविद्यालय के फाउंडेशन मॉडल रिसर्च सेंटर के निदेशक पर्सी लियांग ने हाल ही में सोशल मीडिया पर HELM MMLU की नवीनतम सूची साझा की। सूची से पता चलता है कि अलीबाबा का टोंग यि कियान वेन ओपन-सोर्स मॉडल Qwen2-72B पांचवें स्थान पर है, केवल Claude3Opus, GPT-4o, Gemini1.5pro और GPT-4 के बाद, यह सबसे उच्च रैंक वाला ओपन-सोर्स बड़ा मॉडल है, साथ ही यह सबसे अच्छा चीनी बड़ा मॉडल भी है।
टोंग यि कियान वेन Qwen2 श्रृंखला जून 2024 की शुरुआत में ओपन-सोर्स की गई, जिसमें 5 विभिन्न आकार के पूर्व-प्रशिक्षित और निर्देशात्मक सूक्ष्म मॉडल शामिल हैं। अब तक, Qwen श्रृंखला के मॉडल की डाउनलोड संख्या 16 मिलियन से अधिक हो गई है, जो इसके उद्योग में व्यापक मान्यता और मजबूत प्रदर्शन को दर्शाता है।
HELM MMLU के नवीनतम मूल्यांकन परिणाम न केवल Qwen2-72B की बहु-कार्य भाषा समझ में उत्कृष्टता को उजागर करते हैं, बल्कि वैश्विक एआई तकनीक प्रतियोगिता में चीनी बड़े मॉडल के उदय का भी प्रतीक हैं। तकनीक में निरंतर प्रगति के साथ, हम भविष्य में अधिक उत्कृष्ट चीनी बड़े मॉडल को अंतरराष्ट्रीय मंच पर देखने की उम्मीद करते हैं।