Das Alibaba DAMO Academy und die ModelScope-Community von Moda haben kürzlich die Veröffentlichung eines neuen mehrsprachigen Benchmark-Datensatzes namens P-MMEval bekannt gegeben. Dieser Datensatz zielt darauf ab, die mehrsprachigen Fähigkeiten großer Sprachmodelle (LLMs) umfassend zu bewerten und deren Fähigkeiten zur sprachübergreifenden Übertragung zu vergleichen.

Der Datensatz umfasst hocheffiziente Datensätze für grundlegende und spezielle Fähigkeiten und stellt sicher, dass die mehrsprachige Abdeckung in allen ausgewählten Datensätzen konsistent ist. Er bietet parallele Beispiele in verschiedenen Sprachen und unterstützt bis zu 10 Sprachen aus 8 verschiedenen Sprachfamilien, darunter Englisch, Chinesisch, Arabisch, Spanisch, Japanisch, Koreanisch, Thai, Französisch, Portugiesisch und Vietnamesisch.

微信截图_20241212083907.png

P-MMEval wurde entwickelt, um den Bedarf an präzisen und parallelen Bewertungsergebnissen bei der Entwicklung und Iteration großer Sprachmodelle zu erfüllen. Dies ist entscheidend für die Identifizierung der mehrsprachigen Fähigkeiten von Modellen und die Quantifizierung ihrer Leistung. Frühere Arbeiten konzentrierten sich hauptsächlich auf die Bewertung einzelner Aufgaben, während neuere Forschungsarbeiten einige groß angelegte mehrsprachige und multitask-basierte Bewertungsbenchmarks vorschlagen, die mehrere repräsentative, unabhängige Benchmark-Aufgaben vereinen. Diese groß angelegten Benchmark-Datensätze weisen jedoch Inkonsistenzen in der Abdeckung verschiedener Sprachen auf.

P-MMEval wählt anhand eines auf Signifikanztests basierenden Verfahrens geeignete Benchmark-Datensätze aus. Es integriert grundlegende Aufgaben der Verarbeitung natürlicher Sprache (NLP) und aufgaben-spezifische Bewertungsaufgaben. Es stellt sicher, dass jede Aufgabe eine konsistente Sprachauswahl aufweist und bietet sprachübergreifende parallele Beispiele für einen konsistenten Vergleich. Hinsichtlich der Aufgabenvielfalt umfasst P-MMEval zwei wichtige grundlegende NLP-Aufgaben (Generierung und Verständnis) sowie fünf Kernfähigkeiten aktueller LLMs. In Bezug auf die Sprachvielfalt vereinheitlicht P-MMEval zehn verschiedene Sprachen aus acht Sprachfamilien.

Der P-MMEval-Datensatz wurde in das OpenCompass- und EvalScope-Bewertungssystem integriert. Beide Frameworks können zur Durchführung von Bewertungsaufgaben verwendet werden. OpenCompass bietet eine Open-Source-, effiziente und umfassende Plattform zur Bewertung großer Modelle und unterstützt die umfassende Bewertung verschiedener Modelle wie große Sprachmodelle und multimodale Modelle. Regelmäßig werden Bewertungsergebnis-Ranglisten veröffentlicht. P-MMEval wurde sofort in das OpenCompass-Bewertungssystem integriert, und die Bewertungsaufgaben können mit dem Open-Source-Tool OpenCompass durchgeführt werden.

Die Forscher haben die Leistung verschiedener repräsentativer, durch Instruktionen feinabgestimmter Modelle bewertet, darunter die proprietären Modelle GPT-4o und Claude-3.5 sowie die Open-Source-Modelle LLaMA3.1, LLaMA3.2 und Qwen2.5. Die Ergebnisse zeigen, dass mit Ausnahme der LLaMA3.2-Serie die mehrsprachigen Fähigkeiten aller Modelle mit zunehmender Modellgröße zunahmen. Qwen2.5 zeigte eine starke mehrsprachige Leistung bei Verständnis- und spezialisierten Aufgaben, während Gemma2 bei Generierungsaufgaben hervorragende Ergebnisse erzielte. Proprietäre Modelle waren im Allgemeinen besser als Open-Source-Modelle.

Die Einführung von P-MMEval bietet neue Werkzeuge und Methoden zur Bewertung der mehrsprachigen Fähigkeiten großer Modelle und trägt zur Förderung der Entwicklung und Anwendung mehrsprachiger NLP-Technologien bei.

Datenset-Link:

https://www.modelscope.cn/datasets/modelscope/P-MMEval