OpenAIが発表した最新モデルo3は、ARC-AGIベンチマークテストで驚くべき成果を収め、標準計算条件下で75.7%、高計算バージョンでは87.5%という高得点を記録しました。この成果はAI研究界に衝撃を与えましたが、人工知能汎用性(AGI)が解明されたことを証明するものではありません。

ARC-AGIベンチマークテストは、抽象推論コーパス(Abstract Reasoning Corpus)に基づいており、AIシステムが新しいタスクに適応し、流動的な知性を示す能力を評価することを目的としています。ARCは一連の視覚パズルを含んでおり、物体、境界、空間関係などの基本概念の理解が必要です。人間はこれらのパズルを簡単に解くことができますが、現在のAIシステムはこれに関して大きな課題に直面しています。ARCは、AI評価において最も困難な基準の一つと考えられています。

image.png

o3の性能は、以前のモデルを大幅に上回っています。o1-previewとo1モデルのARC-AGIにおける最高得点は32%でした。それ以前は、研究者のJeremy Berman氏がClaude3.5Sonnetと遺伝的アルゴリズムを組み合わせた混合手法を用いて53%のスコアを達成していましたが、o3の登場はAI能力の飛躍として認識されています。

ARCの開発者であるFrançois Chollet氏は、o3のAI能力における質的変化を称賛し、新しいタスクへの適応能力が前例のないレベルに達したと述べています。

o3の優れた性能にもかかわらず、その計算コストは非常に高くなっています。低計算構成では、パズル1問を解く費用が17~20ドルで、3300万トークンを消費します。高計算構成では、計算コストは172倍に増加し、数十億トークンを使用します。しかし、推論コストが徐々に低下するにつれて、これらの費用はより妥当なものになる可能性があります。

image.png

o3がどのようにこのブレークスルーを達成したかについては、現時点では詳細な情報がありません。科学者の中には、o3がプログラム合成手法を用いて、連鎖思考と探索メカニズムを組み合わせている可能性があると推測する者もいます。一方、o3は強化学習をさらに拡張した結果であると考える科学者もいます。

image.png

o3はARC-AGIで大きな進歩を遂げましたが、Chollet氏はARC-AGIがAGIのテストではないことを強調し、o3はまだAGIの基準に達していないと述べています。o3は依然として一部の簡単なタスクで劣った性能を示しており、人間の知性との根本的な違いを示しています。さらに、o3は推論プロセスにおいて依然として外部検証に依存しており、AGIの独立した学習能力とはかけ離れています。

Chollet氏のチームは、o3の能力を検証するための新しい挑戦的な基準を開発中で、そのスコアを30%以下に下げると予想しています。彼は、真のAGIは、普通の人間にとっては簡単だがAIにとっては困難なタスクの作成がほぼ不可能になることを意味すると述べています。

要点:

🌟 o3はARC-AGIベンチマークテストで75.7%の高得点を獲得し、以前のモデルを凌駕しました。

💰 o3はパズル1問を解くのに17~20ドルの費用がかかり、計算量が膨大です。

🚫 o3は優れた性能を示していますが、専門家らはAGIの基準に達していないと強調しています。