最近、Arc Prize財団は、人工知能(AI)モデルの汎用知能レベルを測定することを目的とした新しいテスト、ARC-AGI-2を発表しました。この財団は、著名なAI研究者François Chollet氏も共同設立しています。財団のブログによると、この新しいテストは、主要なAIモデルの多くにとって大きな課題となっています。

QQ_1742868386676.png

Arc Prizeランキングによると、OpenAIのo1-proやDeepSeekのR1などの「推論型」AIモデルは、ARC-AGI-2テストでのスコアがわずか1%から1.3%であるのに対し、GPT-4.5、Claude3.7Sonnet、Gemini2.0Flashなどのより強力な非推論モデルのスコアも約1%です。ARC-AGIテストには、さまざまな色のブロックから視覚パターンを識別し、正しい「解答」グリッドを生成する一連のパズル問題が含まれています。これらの問題は、AIがこれまで見たことのない新しい問題に適応することを強制することを目的としています。

人間の基準を確立するために、Arc Prize財団は400人以上をARC-AGI-2テストに参加させました。これらの参加者の平均スコアは60%で、どのAIモデルのスコアよりもはるかに高くなっています。Chollet氏はソーシャルメディアで、ARC-AGI-2は以前のバージョンであるARC-AGI-1よりもAIモデルの実際の知能を効果的に測定できると述べています。新しいテストは、AIシステムがトレーニングデータを超えた新しいスキルを効率的に習得できるかどうかを評価することを目的としています。

QQ_1742868401593.png

ARC-AGI-1と比較して、ARC-AGI-2は設計がいくつかの点で改善されており、特に「効率性」という新しい指標が導入され、モデルは記憶に頼らずに即座にパターンを解釈することが求められます。Arc Prize財団の共同設立者であるGreg Kamradt氏も述べているように、知性とは単に問題解決能力だけでなく、効率性も重要な要素です。

注目すべきは、OpenAIのo3モデルがARC-AGI-1で75.7%という圧倒的なスコアを記録し、2024年まで破られることはありませんでした。しかし、o3のARC-AGI-2でのスコアはわずか4%で、タスクごとの計算コストは200ドルにも上ります。ARC-AGI-2の発表は、技術界で新しいAI進歩の測定基準に対する要望が高まっている時期に合っています。Hugging Faceの共同設立者であるThomas Wolf氏は、AI業界には、創造性など、人工汎用知能と呼ばれる重要な特性を測定するためのテストが不足していると述べています。

同時に、Arc Prize財団は2025年のArc Prizeコンテストを発表し、開発者に対し、ARC-AGI-2テストで85%の精度を達成し、タスクごとの費用を0.42ドルに抑えることを課題としています。

要点:

🌟 ARC-AGI-2は、Arc Prize財団が新たに発表したAIの汎用知能レベルを測定するためのテストです。

📉 現在、最先端のAIモデルはこのテストでのスコアが全体的に低く、人間の平均レベルをはるかに下回っています。

🏆 Arc Prize財団は、開発者が低コストで新しいテストにおけるAIのパフォーマンスを向上させることを奨励するために、チャレンジを開催します。