人工知能(AI)の能力は急速に発展しており、その「知能」の程度を正確に測定する方法が業界の焦点となっています。しかし、人間の知能を測定するのと同じように、AIの知能の評価も容易ではありません。既存のテストや基準は、おおよその評価しか提供できません。近年、AIモデルがますます複雑になるにつれて、従来の基準の限界が顕著になり、より包括的で、実際の応用能力を反映した新しい評価システムの探求が活発化しています。

QQ_1744593297690.png

従来の基準の限界:高得点≠高性能

長年、生成AIコミュニティは、MMLU(大規模多タスク言語理解)などの基準を頼りにモデルの能力を評価してきました。このような基準は、多くの場合、複数の学術分野を網羅した選択問題形式を採用しており、直接比較が容易です。しかし、この形式ではAIの知能を本当に捉えることができないと考えられています。例えば、MMLUで同様のスコアを獲得したモデルでも、実際の応用におけるパフォーマンスに大きな違いが見られる場合があります。これは、紙面上の高得点が必ずしも実際の能力を表すとは限らないことを示しています。

さらに、大学入学試験のような基準であっても、高得点だからといって、受験者の知力レベルが同じである、あるいは知力が限界に達していることを意味するわけではありません。これは、基準が能力のおおよその尺度であり、正確な測定ではないことをさらに示しています。さらに懸念されるのは、高度なモデルでも、単語の中の特定の文字を正しく数えられない、小数の大小比較を間違えるなど、一見単純なタスクで「低レベルのミス」を起こすことです。これらの事例は、従来の基準によって推進される進歩と、AIの現実世界の信頼性との乖離を露呈しています。

新しい基準が登場:汎用推論と実用化に焦点

従来の基準の不足に対処するため、AI業界は新しい評価フレームワークの探求に積極的に取り組んでいます。最近発表されたARC-AGI基準は、モデルを汎用推論と創造的な問題解決能力に向けて推進することを目的としており、業界から歓迎されています。注目すべきもう一つの新しい基準は「人類最後の試験」で、これは3000問の査読済みの複数ステップの問題を含んでおり、複数の分野を網羅し、AIシステムを専門家レベルの推論で挑戦しようとするものです。初期の結果では、OpenAIのモデルが、このテストの発表から1ヶ月以内に26.6%の成績を収め、AIの急速な進歩を示しています。

しかし、「人類最後の試験」も従来の基準と同様に、主に孤立した環境で知識と推論能力を評価し、実際の応用でますます重要になっているツールの使用能力を無視しています。GPT-4は、ツールを装備した場合でも、より複雑なGAIA基準で約15%の成績しか収めていません。これは、従来の基準と実際の能力のギャップをさらに証明しています。

GAIA基準:AIの実用化能力を測る新しい基準

従来の基準の欠点を補うために、より現実の応用に近いGAIA基準が導入されました。GAIAは、Meta-FAIR、Meta-GenAI、HuggingFace、AutoGPTチームが共同で作成し、466個の厳選された問題を含んでおり、3つの難易度レベルに分類されています。これらの問題は、ウェブブラウジング、マルチモーダル理解、コード実行、ファイル処理、複雑な推論など、AIの現実のビジネスアプリケーションにおいて不可欠な重要な能力を包括的にテストします。

GAIA基準の問題設計は、実際のビジネス問題の複雑さを模倣しています。レベル1の問題は、解決するために約5つのステップと1つのツールが必要です。レベル2は5〜10ステップと複数のツール、レベル3の問題は最大50個の離散ステップと任意の数のツールが必要になる場合があります。この構造は、現実世界の問題解決が多くのステップとツールの協調作業を必要とすることをより現実的に反映しています。

GAIAの初期成果:柔軟性と専門性を強調

GAIA基準の初期の結果によると、柔軟性に重点を置いたAIモデルが75%の精度を達成し、MicrosoftのMagnetic-1(38%)とGoogleのLangfun Agent(49%)を上回りました。このモデルの成功は、オーディオビジュアル理解と推論を組み合わせた専用モデルを採用し、AnthropicのSonnet3.5を主要モデルとして使用したことに起因しています。

GAIAの登場は、AI評価分野におけるより広範な変化を反映しています。私たちは、独立したSaaS(Software as a Service)アプリケーションの評価から、複数のツールとワークフローを調整できるAIエージェントの評価へと移行しつつあります。企業が複雑で複数ステップのタスクを処理するAIシステムにますます依存するにつれて、GAIAのような基準は、従来の選択問題よりも実際的な能力測定を提供することができます。

基準へのアクセス:https://huggingface.co/gaia-benchmark