अलीबाबा दामो इंस्टीट्यूट और मोडाड कम्युनिटी ModelScope ने हाल ही में एक नई बहुभाषी बेंचमार्क सेट P-MMEval को ओपन-सोर्स करने की घोषणा की है, जिसका उद्देश्य बड़े भाषा मॉडल (LLM) की बहुभाषी क्षमताओं का व्यापक मूल्यांकन करना और क्रॉस-लैंग्वेज ट्रांसफर क्षमताओं की तुलना विश्लेषण करना है। यह परीक्षण सेट बुनियादी और विशेष क्षमताओं के लिए कुशल डेटा सेट को कवर करता है, यह सुनिश्चित करता है कि सभी चयनित डेटा सेट में बहुभाषी कवरेज की संगति हो, और यह विभिन्न भाषाओं के बीच समानांतर नमूने प्रदान करता है, जो 8 विभिन्न भाषा परिवारों की 10 भाषाओं का समर्थन करता है, जिसमें अंग्रेजी, चीनी, अरबी, स्पेनिश, जापानी, कोरियाई, थाई, फ्रेंच, पुर्तगाली और वियतनामी शामिल हैं।
P-MMEval का लॉन्च बड़े भाषा मॉडल के विकास और पुनरावृत्ति के दौरान सटीक और समानांतर मूल्यांकन परिणामों की आवश्यकता का उत्तर देता है, जो मॉडल की बहुभाषी क्षमताओं की पहचान और प्रदर्शन को मापने के लिए महत्वपूर्ण है। प्रारंभिक कार्य मुख्य रूप से एकल कार्य मूल्यांकन पर केंद्रित था, जबकि हालिया शोध ने कई बड़े पैमाने पर बहुभाषी बहु-कार्य मूल्यांकन बेंचमार्क प्रस्तुत किए हैं, जो कई प्रतिनिधि स्वतंत्र बेंचमार्क कार्यों को एकीकृत करते हैं। हालाँकि, ये बड़े पैमाने पर बेंचमार्क सेट बहुभाषी प्रकारों के कवरेज में संगत नहीं हैं।
P-MMEval एक महत्वपूर्ण परीक्षण विधि पर आधारित है जो उपयोगी और उचित बेंचमार्क सेट का चयन करता है, जिसमें बुनियादी प्राकृतिक भाषा प्रसंस्करण कार्य और क्षमता-विशिष्ट मूल्यांकन कार्य को एकीकृत करता है, यह सुनिश्चित करता है कि प्रत्येक कार्य में भाषा कवरेज की संगति हो, और यह समानांतर नमूने प्रदान करता है ताकि एक समान तुलना की जा सके। कार्य विविधता के लिए, P-MMEval दो प्रमुख बुनियादी NLP कार्यों (उत्पादन और समझ) और वर्तमान LLM की पांच मुख्य क्षमताओं को कवर करता है। भाषा विविधता के मामले में, P-MMEval ने आठ भाषा परिवारों में दस विभिन्न भाषाओं को एकीकृत किया है।
P-MMEval डेटा सेट को सीनान मूल्यांकन प्रणाली OpenCompass और EvalScope मूल्यांकन ढांचे में एकीकृत किया गया है, इन दोनों ढांचों का उपयोग करके मूल्यांकन कार्य किए जा सकते हैं। OpenCompass एक ओपन-सोर्स, कुशल, और व्यापक बड़े मॉडल मूल्यांकन ओपन प्लेटफार्म प्रदान करता है, जो बड़े भाषा मॉडल, मल्टी-मॉडल मॉडल और विभिन्न प्रकार के मॉडल का एक-स्टॉप मूल्यांकन करता है, और नियमित रूप से मूल्यांकन परिणामों की सूची प्रकाशित करता है। P-MMEval ने भी पहले समय पर OpenCompass के मूल्यांकन प्रणाली में शामिल किया है, और मूल्यांकन कार्य को पूरा करने के लिए सीनान OpenCompass ओपन-सोर्स टूल का उपयोग किया जा सकता है।
शोधकर्ताओं ने कुछ प्रतिनिधि निर्देश ट्यूनिंग मॉडलों के प्रदर्शन का मूल्यांकन किया, जिसमें बंद स्रोत मॉडल GPT-4o, Claude-3.5 और ओपन-सोर्स मॉडल LLaMA3.1, LLaMA3.2, Qwen2.5 आदि शामिल हैं। प्रयोगात्मक परिणाम बताते हैं कि LLaMA3.2 श्रृंखला को छोड़कर, सभी मॉडलों की बहुभाषी क्षमताएँ मॉडल के आकार के बढ़ने के साथ बढ़ती हैं। Qwen2.5 ने समझ और विशेष क्षमताओं के कार्यों में मजबूत बहुभाषी प्रदर्शन दिखाया, जबकि Gemma2 ने उत्पादन कार्य में उत्कृष्ट प्रदर्शन किया। बंद स्रोत मॉडल सामान्यतः ओपन-सोर्स मॉडलों से बेहतर हैं।
P-MMEval का लॉन्च बड़े मॉडलों की बहुभाषी क्षमता मूल्यांकन के लिए नए उपकरण और विधियाँ प्रदान करता है, जो बहुभाषी NLP तकनीक के विकास और अनुप्रयोग को बढ़ावा देने में मदद करता है।
डेटा सेट लिंक:
https://www.modelscope.cn/datasets/modelscope/P-MMEval