先日、スタンフォード大学の大規模言語モデル評価ランキングHELM MMLUの最新結果が発表されました。スタンフォード大学基礎モデル研究センター長Percy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、オープンソースの大規模言語モデルとして最高の性能を示したと発表しました。

MMLU(Massive Multitask Language Understanding、大規模多言語理解)は、業界で最も影響力のある大規模言語モデル評価基準の1つです。基礎数学、コンピュータサイエンス、法律、歴史など57のタスクを含み、大規模言語モデルの世界知識と問題解決能力をテストすることを目的としています。しかし、実際の評価では、非標準的なプロンプト技術の使用やオープンソースの評価フレームワークの統一的な採用がされていないことなどから、異なるモデルの結果に一貫性と比較可能性が欠けていることがよくあります。

QQ截图20240620111950.png

スタンフォード大学基礎モデル研究センター(CRFM、Center for Research on Foundation Models)が提案した基礎モデル評価フレームワークHELM(A holistic framework for evaluating foundation models)は、透明性があり再現可能な評価方法の構築を目指しています。HELMフレームワークは、MMLUにおける異なるモデルの評価結果を標準化し、透明化することで、既存のMMLU評価における問題を解決します。例えば、すべての参加モデルに同じプロンプトを使用し、各テスト項目でモデルに同じ5つの例を提供してコンテキスト学習を行います。

スタンフォード大学基礎モデル研究センター長Percy Liang氏は先日、ソーシャルメディアでHELM MMLUの最新ランキングを発表しました。ランキングによると、アリババの通義千問のオープンソースモデルQwen2-72Bは5位にランクインし、Claude3Opus、GPT-4o、Gemini1.5pro、GPT-4に次ぐ、オープンソースの大規模言語モデルとしては最高位、そして中国の大規模言語モデルとしては最高の性能を示しました。

通義千問Qwen2シリーズは2024年6月初旬にオープンソース化され、5つの異なるサイズの事前学習済みモデルと指示微調整モデルが含まれています。現在までに、Qwenシリーズモデルのダウンロード数は1600万回を突破しており、業界における高い認知度と強力な性能を示しています。

HELM MMLUの最新の評価結果は、Qwen2-72Bが多言語理解における優れた性能を示していることを明確に示すとともに、中国の大規模言語モデルが世界のAI技術競争において台頭していることを示しています。技術の進歩とともに、今後、中国からより多くの優れた大規模言語モデルが国際舞台で活躍することを期待しています。