人工知能分野の重要なベンチマークであるARC-AGI(汎用人工知能抽象推論コーパス)が、画期的な進歩を遂げようとしています。しかし、このテストの作成者であるフランソワ・ショレ(Francois Chollet)は、成績が向上したとしても、汎用人工知能(AGI)の実現に近づいているわけではないと警告しています。彼は、このテスト自体に設計上の欠陥があり、真の研究上のブレークスルーを示すものではないと指摘しています。

ショレが2019年にARC-AGIを発表して以来、AIシステムは常にこのテストで低迷しており、現在までに、最も優れたシステムでもタスクの3分の1以下しか解決できていません。ショレは、これは主に、現在の人工知能研究が巨大言語モデル(LLM)に過度に依存していることが原因であると述べています。彼は、LLMは大規模データの処理においてパターン認識を行うことができますが、推論ではなく記憶に依存しているため、未経験の新しい状況に対処したり、真の「推論」を行うことが困難であると指摘しています。

「LLMモデルは、独立した推論を行うのではなく、トレーニングデータからパターンを抽出することに依存しています。それらはパターンを「記憶」しているだけで、新しい推論を生み出しているわけではありません。」と、ショレはソーシャルメディアプラットフォームXの一連の投稿で説明しています。

QQ20241210-104353.png

それにもかかわらず、ショレはAI研究の推進を止めていません。彼とZapierの創設者であるMike Knoopは、今年6月に100万ドルのコンテストを共同で開始し、オープンソースAIによるARC-AGIベンチマークへの挑戦を促しました。17,789件の応募作品の中で、最も優れたAIシステムでも55.5%のスコアしか得られず、「人間レベル」に必要な85%の基準を下回りましたが、ショレとKnoopは、これが前進の一歩であると考えています。

Knoopはブログ記事の中で、この成果はAGIの実現に近づいていることを意味するのではなく、むしろARC-AGIの一部タスクが「蛮力」的な解決策に過度に依存しており、真の汎用知能のための有効なシグナルを提供していないことを浮き彫りにしていると指摘しています。ARC-AGIは、複雑で未経験のタスクを提供することでAIの汎化能力をテストすることを目的として設計されましたが、これらのタスクがAGIを効果的に評価できるかどうかは依然として疑問が残ります。

AI,人工知能,ロボット

画像注記:画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyによって提供されています。

ARC-AGIベンチマークのタスクには、ジグソーパズルなどの問題が含まれており、AIは既知の情報に基づいて未知の答えを推測する必要があります。これらのタスクは、AIが新しい状況に適応する能力を高めるように見えるかもしれませんが、結果は、既存のモデルが大量の計算によって解決策を見つけただけで、真の知的な適応能力を示しているわけではないことを示しています。

さらに、ARC-AGIの作成者は、特にAGIの定義の曖昧性について、同僚からの批判に直面しています。OpenAIの従業員は最近、「ほとんどのタスクにおいてほとんどの人間よりも優れたパフォーマンスを示す」人工知能をAGIと定義するならば、AGIは実際には既に実現されていると述べています。しかし、ショレとKnoopは、ARC-AGIベンチマークの現在の設計では、この目標はまだ完全に達成されていないと考えています。

将来に向けて、ショレとKnoopは、第2世代のARC-AGIベンチマークを発表し、2025年に新しいコンテストを開催して、現在のテストの不足点を解決する予定です。彼らは、新しいベンチマークは、AI研究をより重要な方向に推進し、AGIの実現プロセスを加速することに重点を置くようになると述べています。

しかし、既存のベンチマークを修正することは容易ではありません。ショレとKnoopの努力は、特に汎用知能の分野において、人工知能の知能を定義することは依然として困難で複雑な作業であることを示しています。