Kürzlich wurden die neuesten Ergebnisse der HELM MMLU-Rangliste für große Sprachmodelle der Stanford University veröffentlicht. Percy Liang, Direktor des Stanford Center for Research on Foundation Models, gab bekannt, dass das Alibaba-Modell Tongyi Qianwen Qwen2-72B Llama3-70B überholt und sich als bestes Open-Source-Großsprachenmodell erwiesen hat.
MMLU (Massive Multitask Language Understanding) ist einer der einflussreichsten Benchmarks für die Bewertung großer Sprachmodelle in der Branche. Es umfasst 57 Aufgaben aus Bereichen wie Mathematik, Informatik, Recht und Geschichte und zielt darauf ab, das Weltwissen und die Problemlösungsfähigkeiten großer Sprachmodelle zu testen. In der Praxis mangelt es den Ergebnissen verschiedener Modelle jedoch oft an Konsistenz und Vergleichbarkeit, hauptsächlich aufgrund der Verwendung nicht standardisierter Prompts und der fehlenden Verwendung eines einheitlichen Open-Source-Bewertungsrahmens.
Das HELM-Framework (A holistic framework for evaluating foundation models), entwickelt vom Stanford Center for Research on Foundation Models (CRFM), zielt darauf ab, eine transparente und reproduzierbare Bewertungsmethode zu schaffen. Das HELM-Framework standardisiert und transparentisiert die Bewertungsergebnisse verschiedener Modelle auf MMLU und behebt so bestehende Probleme der MMLU-Bewertung. Beispielsweise werden für alle bewerteten Modelle dieselben Prompts verwendet, und für jedes Testthema werden dem Modell fünf Beispiele für kontextuelles Lernen zur Verfügung gestellt.
Percy Liang, Direktor des Stanford Center for Research on Foundation Models, veröffentlichte kürzlich die aktualisierte HELM MMLU-Rangliste in den sozialen Medien. Die Rangliste zeigt, dass das Alibaba Open-Source-Modell Tongyi Qianwen Qwen2-72B auf Platz 5 liegt, nur hinter Claude3Opus, GPT-4o, Gemini1.5pro und GPT-4. Es ist das bestplatzierte Open-Source-Großsprachenmodell und gleichzeitig das leistungsstärkste chinesische Großsprachenmodell.
Die Tongyi Qianwen Qwen2-Serie wurde Anfang Juni 2024 als Open Source veröffentlicht und umfasst fünf vortrainierte und instruktionsfeinabgestimmte Modelle unterschiedlicher Größe. Bis heute wurden die Qwen-Modelle über 16 Millionen Mal heruntergeladen, was ihre breite Akzeptanz und Leistungsfähigkeit in der Branche zeigt.
Die neuesten Ergebnisse der HELM MMLU-Bewertung unterstreichen nicht nur die hervorragende Leistung von Qwen2-72B im Bereich des mehrsprachigen Verständnisses, sondern markieren auch den Aufstieg chinesischer Großsprachenmodelle im globalen KI-Wettbewerb. Mit dem fortschreitenden technologischen Fortschritt erwarten wir in Zukunft weitere herausragende chinesische Großsprachenmodelle auf der internationalen Bühne.