OpenAIは12日間にわたる発表イベントで、次世代推論モデルシリーズであるo3とその軽量版o3-miniを発表しました。これらのモデルはo1シリーズの後継として位置付けられ、回答前により深く思考することで精度を高めるよう特別に設計されています。

o3モデルはARC-AGIベンチマークで優れた成績を収め、このベンチマークを突破した最初のAIモデルとなりました。これは、人間レベルの問題解決能力に近づいていることを示しています。o3シリーズモデルのARC-AGIベンチマークにおける最低性能は75.7%ですが、より多くの計算リソースを使用することで、性能は87.5%に向上します。

o3-miniモデルは、モデル性能を維持しながら推論速度の向上とコスト削減に重点を置いており、特にプログラミングタスクに適しています。OpenAIは1月末頃にo3-miniを、その後すぐに完全版のo3モデルをリリースする予定です。o3シリーズモデルは直接公開されず、まず安全性のテストが行われますが、OpenAIはすでにセキュリティ研究者によるo3とo3-miniのプレビューへの登録を受け付けています。

OpenAI最強の推論モデルo3発表:AGI能力が大幅に向上、人間レベルに近づく

プログラミングと数学の問題解決において、o3モデルは顕著な能力を示しています。SWE-bench Verifiedベンチマークでは、o3の精度は約71.7%で、o1モデルよりも20%以上向上しています。Competition Codeでは、o3は2727Elo点を獲得しましたが、o1は1891点でした。さらに、o3は競技数学で96.7%、GPQA Diamondで87.7%の精度を達成しており、o1よりも約10%向上しています。

OpenAIは、新しい安全評価方法である「審議型アラインメント(deliberative alignment)」も発表しました。これは、モデルに安全基準を直接教える新しいパラダイムであり、モデルが回答前に基準を明確に思い出し、正確に推論を実行できるようにトレーニングします。この方法は、OpenAIのoシリーズモデルのアラインメントに使用されており、OpenAIの安全ポリシーへの高度な正確な遵守を実現しています。

現在、OpenAIは外部セキュリティテストを進めており、ウェブサイトで早期アクセス申請を受け付けています。申請者はオンラインフォームに記入し、関連情報を提供する必要があります。選ばれた研究者は、o3とo3-miniへのアクセス権限を与えられ、それらの能力を探求し、安全評価に貢献します。