Metaは土曜日、新しい主力AIモデルMaverickを発表しました。このモデルは、LM Arenaの評価で2位にランクインしました。LM Arenaは、人間の評価者が異なるモデルの出力結果を比較し、好ましいものを選択するテストプラットフォームです。しかし、多くのAI研究者はすぐに、MetaがLM Arenaに展開したMaverickのバージョンは、開発者が広く使用しているバージョンと著しく異なることに気づきました。

Facebook メタバース meta

Metaは発表の中で、LM Arena上のMaverickは「実験的なチャットバージョン」であることを認めました。同時に、Llamaの公式ウェブサイトのグラフは、MetaのLM Arenaテストでは「対話用に最適化されたLlama4Maverick」が使用されていることを示しています。この違いは、研究コミュニティの疑問を招いています。

AI研究者は、ソーシャルプラットフォームX上で、公開してダウンロード可能なMaverickと、LM Arenaでホストされているバージョンとの間に、明らかな行動の違いがあると指摘しました。LM Arenaのバージョンの特徴は、大量の絵文字を使用し、冗長な回答を提供することです。これは標準バージョンでは一般的ではありません。Nathan Lambertという研究者はX上でこの発見を共有し、「Llama4はちょっと煮詰まりすぎてるな、ははは、これはヤップタウンのどこだ?」と皮肉を込めてコメントし、関連するスクリーンショットを添付しました。

特定のベンチマークテストに合わせてモデルを調整し、その後「オリジナル」バージョンを公開するという手法は、深刻な問題を引き起こします。主な理由は、開発者が実際のアプリケーションシナリオでのモデルの性能を正確に予測することが難しくなるためです。さらに、この手法は、ベンチマークテストの目的が、さまざまなタスクにおける個々のモデルの長所と短所の客観的なスナップショットを提供することであるため、誤解を招くものと見なされています。

LM Arenaはさまざまな理由から、AIモデルのパフォーマンスを測定するための最も信頼できる指標とは見なされていませんが、通常、AI企業は、評価でより良いスコアを得るためにモデルを特別に最適化していることを公に認めることはありません。Metaのこの手法は、この慣例を破ったように見え、AIモデル評価の透明性に関するより広範な議論を引き起こしています。