先日、Meta社が公開したオープンソースの大規模言語モデルLlama-4-Maverickが、LMArenaのランキングで2位から32位に急落し、開発者たちの間で大きな疑問が生じています。Metaが特別なバージョンを提出してランキングを操作したのではないかという疑念が広がっています。この問題は4月6日にMetaが最新のLLMであるLlama4(Scout、Maverick、Behemothの3つのバージョンを含む)を発表したことに端を発します。その中でもLlama-4-Maverickは初期評価で高いパフォーマンスを示し、LMArenaランキングでGemini2.5Proに次ぐ2位にランクインしました。

しかし、開発者によるLlama4オープンソース版の実使用に関するフィードバックが公開されるにつれて、このモデルの評価は急速に低下しました。一部の開発者は、MetaがLMArenaに提出したバージョンと公開されたオープンソースバージョンとの間に大きな違いがあることを発見し、Metaによるランキング操作の疑念が強まりました。この問題に対し、Chatbot Arenaは4月8日、Metaが提出したのは「特別版」であることを確認し、ランキングの更新を検討すると発表しました。

LLM アルパカ 数理モデル

画像注記:AIによって生成された画像、画像ライセンス提供元Midjourney

Chatbot Arenaによると、Metaが最初に提出したLlama-4-Maverick-03-26-Experimentalは実験的な最適化バージョンであり、これが当時2位にランクインしていました。一方、修正後のオープンソース版Llama-4-Maverick-17B-128E-Instructは、170億個の活性化パラメータと128個のMoE専門家を持つにもかかわらず、ランキングは32位に留まり、Gemini2.5Pro、GPT4oなどの上位モデルを大きく下回り、前世代モデルを改良したLlama-3.3-Nemotron-Super-49B-v1にも劣りました。

Llama-4-Maverick-03-26-Experimentalが期待通りのパフォーマンスを発揮しなかった理由について、Metaは最近の発表会で、このモデルは「対話に特化した最適化が施されている」ため、LM Arenaでの成績が比較的良かったと説明しています。この最適化はランキングで高得点を獲得しましたが、開発者にとって様々な状況下でのモデルの実際の性能を正確に予測することが難しくなりました。

Metaの広報担当者はTechCrunchに対し、Metaは様々なカスタムバージョンの探求を続け、開発者が自身のニーズに合わせてLlama4を調整・改良することを期待していると述べています。同社は開発者たちの創造的な成果を期待するとともに、フィードバックを重視しています。