最近、Minecraftプラットフォーム上で、注目を集めるAI能力評価試験が行われました。新旧2バージョンのClaude3.5Sonnetがゲーム内で建築対決を行い、その能力差が明確に示されました。特に新バージョン(仮称「Sonnet3.6」)の性能は目覚ましく、素晴らしい結果を残しました。
開発者adi氏によって企画されたこの試験は、「唯一信頼できる評価基準」と揶揄されています。評価基準研究者のAidan McLau氏は、この方法が現在のAI評価のニーズに合致しており、美的センスと知能レベルが密接に関連していると指摘しています。このプロジェクトはすぐにオープンソースコミュニティの支持を受け、関連コードはGitHubで公開されました。
テストの結果、様々なモデルが独自の「個性」を示しました。
Sonnet3.6は創造性において優れ、2000人以上のユーザーからの投票支持を得ました。
OpenAIのo1-previewは構築速度は遅いものの、タージマハルなどの実在する建造物の再現において優れた性能を示しました。
o1-miniはタスクを完了できませんでした。
Llama3405Bは自分自身を象徴する「火の上のダイヤモンドの壁」を建造しました。
アリババのQwen2.5-14Bも高い能力を示しました。
注目すべきは、AIがゲーム内の建造過程において、視覚的な理解や入力デバイスの直接操作に依存せず、テキスト形式でコンテキストを提供し、操作命令を生成する点です。これはまるでブラインドチェスのようなものです。技術的な実現には主に以下のものが利用されています。
mineflayerオープンソースライブラリ:AIが生成した命令を実行可能なAPI呼び出しに変換します。
mindcraftオープンソースライブラリ:一般的なプロンプトとサンプルを提供し、様々なモデルのゲームへの接続をサポートします。
プロジェクトチームは、この評価メカニズムをさらに改良し、Lmsys競技場のようなランキングシステムを構築し、Eloアルゴリズムを用いて、人間のユーザー投票に基づいてランキングを行う予定です。なお、完全なテスト環境はわずか15分で構築可能です。
この斬新な評価方法は、AIの創造性を示すだけでなく、大規模モデルの能力を客観的に評価するための新しい視点も提供します。o1-previewが自由な発想でロボットを組み立て、「GPT」の文字を表現したように、AIは仮想世界で独自の「個性」を示し始めています。より多くのモデルがテストに参加するにつれて、この古典的なゲームはAIの発展を目撃する独自のプラットフォームになりつつあります。
ビデオチュートリアル:
https://x.com/mckaywrigley/status/1849613686098506064
オープンソースコード: