最近、OpenAIは最新の推論モデルo3に関する研究を発表し、大規模言語モデル(LLM)が初心者レベルの競技プログラマーから世界トップレベルの競争者へと成長する方法を示しました。o3は有名なプログラミングプラットフォームCodeForcesで2724点を獲得し、上位99.8%にランクインする素晴らしい成績を収め、2024年国際情報オリンピック(IOI)でも金メダルレベルの成績を達成しました。

OpenAI

画像出典:AI生成画像、画像ライセンス提供元Midjourney

この研究によると、o3モデルはIOI競技会で、このイベント向けに微調整されたo1-ioiモデルを上回りました。この結果は、強化学習による成果が、手作業によるソリューションよりも優れていることを示しています。IOI2024では、o3は標準条件下で競争に参加し、見事金メダルの基準をクリアしました。同時に、CodeForcesでも世界トップ200人のプログラマーの仲間入りを果たし、トップレベルの人間プログラマーと競い合えるレベルに達しています。

ウォートン校のEthan Mollick准教授は、「強化学習によって発展した汎用的な推論能力は、精巧に設計された特定分野のソリューションを凌駕するようになりました。特定のタスクのために専用のシステムを構築するのではなく、より強力な推論能力を持つ大規模汎用モデルによって、より良い結果を得ることができるのです。」と述べています。

今回の研究は、OpenAIが競争プログラミングやより広範なソフトウェアエンジニアリング分野におけるモデルの性能を評価する取り組みの一環です。さらに、Anthropic社も今週月曜日に、AIが職場に与える影響に関するレポートを発表しました。レポートによると、約36%の職業で、少なくとも25%の業務にAIが使用されており、57%のAIアプリケーションは人間の能力を高め、43%のアプリケーションは自動化に焦点を当てています。しかし、AIが少なくとも75%の業務に使用されている職業はわずか4%です。

この研究はまた、ソフトウェア開発と技術文書作成がAIの主要な適用分野である一方、環境との物理的な相互作用を伴うタスクではAIの役割は比較的少ないことも示しています。

要点:

💻 o3モデルはCodeForcesで2724点を獲得し、上位99.8%にランクイン、国際情報オリンピックでも金メダルを獲得。

📊 強化学習の効果は従来の手作業によるソリューションを上回り、汎用的な推論能力の優位性を示しました。

📈 AIは職場において広く活用されており、ソフトウェア開発と技術文書作成が主要な分野ですが、物理的な相互作用を伴うタスクへの適用は少ないです。