本日未明1時に行われた技術ライブストリームにおいて、OpenAIは最新の、そして最も強力なマルチモーダルモデルであるo4-miniとフルバージョンo3を発表しました。これらのモデルは、テキスト、画像、音声の同時処理が可能であるだけでなく、インテリジェントエージェントとして、Web検索、画像生成、コード解析などのツールを自動的に呼び出すことができ、さらに深層思考モードを備え、思考連鎖の中で画像を考察することもできます。

OpenAIが公開したテストデータによると、o4-miniは卓越した性能を示しました。AIME2024とAIME2025のテストでは、精度はそれぞれ93.4%と92.7%に達し、フルバージョンo3を上回り、現在最も精度の高いモデルとなっています。Codeforcesプログラミングコンテストのテストでは、o4-miniは2700点を獲得し、世界トップ200人のプログラマーの仲間入りを果たしました。

従来の大規模言語モデルとは異なり、OpenAIは初めてo3とo4-miniに外部ツールの呼び出し機能を付与しました。トレーニング過程において、モデルはテキスト生成だけでなく、複雑なタスクに直面した際に適切なツールを選択して推論を支援する方法も学習します。例えば、複雑な数学の問題を解く際には、電卓ツールを呼び出して複雑な計算を行い、画像データを処理する際には、画像処理ツールを呼び出してトリミングや回転などの操作を行います。このツール使用能力により、モデルはより複雑なタスクシナリオに対応できるようになりました。

マルチモーダル推論能力は、o3とo4-miniのもう一つの大きな特徴です。テキスト、画像、音声など、異なるモーダリティのデータを同時に処理し、有機的に統合することができます。OpenAIは革新的なニューラルネットワークアーキテクチャを採用し、画像とテキストデータをそれぞれ統一された特徴表現にエンコードします。画像データについては畳み込みニューラルネットワークで特徴を抽出し、テキストデータについてはTransformerエンコーダで意味情報を抽出します。その後、融合モジュールによってこれらの異なるモーダリティの特徴を統合し、統一された特徴表現を生成することで、マルチモーダルデータの統合処理を実現します。さらに、モデルは異なるモーダリティのデータに対する動的な処理能力を備えており、タスクの必要に応じて処理の重みを動的に調整することができます。

トレーニングにおいては、大規模な教師なし学習と少数の教師あり学習を組み合わせた手法を採用しています。教師なし学習の部分では、大量のテキストと画像データを用いて事前トレーニングを行い、言語と画像の基本的な特徴とパターンを学習します。教師あり学習の部分では、アノテーションデータとツール使用データを用いてモデルを微調整し、ツールをより適切に理解し使用できるようにします。

ベンチマークテストでは、o3とo4-miniは優れた性能を示しました。AIME2024テストでは、o3の精度は91.6%、o4-miniは93.4%でした。AIME2025テストでは、o3の精度は88.9%、o4-miniは92.7%でした。プログラミングコンテスト(Codeforces)テストでは、o4-miniは2719点を獲得し、世界トップ200位以内に入りました。o3は2706点でした。博士レベルの問題解決GPQAテストでは、o3モデルの精度は83%、o4-miniは81.4%でした。マルチモーダルタスクにおいては、o3とo4-miniはMMU Math、Vista、Charive、Vstarなどのマルチモーダルベンチマークテストでも優れた性能を示しました。

通常のテストに加えて、OpenAIはいくつかの実際の使用テスト結果も共有しました。科学研究分野では、モデルは研究者が実験データを迅速に分析し、文献を参照し、新しい研究のアイデアを提案するのに役立ちます。ソフトウェア開発分野では、開発者がコードのバグを迅速に特定し修正するのに役立ちます。これらの実際のアプリケーションテストの結果は、o3とo4-miniが複雑な科学的問題や実際の開発タスクを処理する際の効率性と大きな可能性をさらに証明しています。

本日より、ChatGPT Plus、Pro、Teamユーザーは、モデルセレクターでo3、o4-mini、o4-mini-highが表示されます。ChatGPT EnterpriseとEduユーザーは1週間後にアクセス権限が付与されます。すべてのプランの速度制限は以前のモデルと同じです。フルバージョンo3とo4-miniは、Chat Completions APIとResponses APIを通じて開発者にも公開されます。Responses APIは推論サマリー機能をサポートしており、関数呼び出し時に推論トークンを保持してパフォーマンスを向上させることができます。また、近日中にWeb検索、ファイル検索、コードインタープリターなどのビルトインツールをサポートし、モデルの推論能力を強化する予定です。