大注目のGPT-5プロジェクト(コードネーム:Orion)は18ヶ月以上開発が続けられていますが、いまだにリリースされていません。ウォールストリートジャーナルの最新報道によると、関係者によると、OrionはOpenAIの既存モデルよりも優れているものの、巨額の費用を投じるだけの進歩が見られないとのことです。さらに懸念されるのは、世界的なデータ不足が、GPT-5の更なる高度化の最大の障害となっている可能性があることです。
GPT-5は少なくとも2回のトレーニングを経ていますが、毎回新たな問題が発生し、研究者の期待に応えられていません。各トレーニングには数ヶ月かかり、計算コストだけで5億ドルに上ります。このプロジェクトが成功するかどうか、いつ成功するのかは、現時点では不明です。

困難なトレーニング:データのボトルネック
2023年3月のGPT-4リリース後、OpenAIはGPT-5の開発に着手しました。一般的に、AIモデルの能力は、取り込むデータ量が増えるにつれて向上します。トレーニングには膨大なデータと数ヶ月間の時間、そして高価な計算チップが大量に必要です。OpenAIのCEOであるAltmanは、GPT-4のトレーニング費用だけで1億ドルを超え、将来のAIモデルのトレーニング費用は10億ドルを超えると述べています。
リスクを軽減するため、OpenAIは通常、小規模な試験運用を行い、モデルの実現可能性を検証します。しかし、GPT-5の開発は当初から困難に直面しました。2023年半ば、OpenAIはGPT-5の新設計をテストすることを目的とした「Arrakis」という実験的トレーニングを開始しました。しかし、トレーニングの進捗は遅く、コストも高額であり、実験の結果、GPT-5の開発は当初の予想よりも複雑で困難であることが明らかになりました。
そのため、OpenAIの研究チームはOrionに一連の技術調整を行うことを決定し、既存の公開インターネットデータではモデルのニーズを満たせなくなっていることに気づきました。GPT-5の性能を向上させるために、より多様な種類と高品質のデータが切実に必要となっています。
「データからの創造」:データ不足への対応
データ不足の問題に対処するため、OpenAIは「データからの創造」というアプローチを採用しました。ソフトウェアエンジニアや数学者を雇用し、新しいソフトウェアコードを作成したり、数学の問題を解いたりすることで、Orionにこれらのタスクから学習させます。OpenAIはこれらの専門家に作業過程を説明させ、人間の知恵を機械学習可能な知識に変換します。
多くの研究者は、コードはソフトウェアの言語として、大規模モデルがこれまで見たことのない問題を解決するのに役立つと考えています。Turing社のCEOであるJonathan Siddharthは、「我々は人間の知恵を人間の脳から機械の脳に移しているのだ」と述べています。
OpenAIは、理論物理学などの分野の専門家と協力し、それぞれの分野における難しい問題の解決方法を説明してもらっています。しかし、この「データからの創造」方法は効率的ではありません。GPT-4のトレーニングデータは約13兆トークンですが、1000人が毎日5000文字を書いたとしても、10億トークンを生成するには数ヶ月かかります。
トレーニングを加速するために、OpenAIはAI生成の「合成データ」も使用しようと試みています。しかし、研究によると、AI生成データをAIトレーニングのフィードバックループで使用すると、モデルが誤動作したり、意味のない回答を生成したりすることがあります。これに対し、OpenAIの科学者は、o1生成データを使用することでこれらの問題を回避できると考えています。
内憂外患:OpenAIが直面する多様な課題
OpenAIは技術的な課題だけでなく、内部の混乱や競合他社からの引き抜きにも直面しています。同時に、技術面と資金面の両方のプレッシャーも増しています。トレーニングには毎回5億ドルもの費用がかかり、最終的なトレーニング費用は10億ドルを超える可能性があります。一方、AnthropicやGoogleなどの競合他社も次世代モデルを次々と発表し、OpenAIを追い抜こうとしています。
人材流出と内部の意見の相違が、開発の進捗をさらに遅らせています。昨年、OpenAIの取締役会は突然Altmanを解雇し、一部の研究者は会社の将来に疑問を抱き始めました。AltmanはすぐにCEOに復帰し、企業統治構造の改革に着手しましたが、今年に入って、共同創設者兼最高科学責任者であるIlya Sutskeverや技術責任者であるMira Muratiを含む20人以上の主要幹部、研究者、そして長年勤務した従業員が相次いで退社しました。
Orionプロジェクトの進捗が停滞するにつれ、OpenAIは簡略版のGPT-4やAI動画生成製品Soraなど、他のプロジェクトやアプリケーションの開発を開始しました。しかし、これにより、限られた計算資源をめぐる様々なチーム間の競争、特に新製品開発チームとOrion研究チーム間の激しい競争が引き起こされました。
AI開発のボトルネック?業界が深い考察を迫られる
GPT-5の苦戦は、より大きな業界の課題を浮き彫りにしている可能性があります。AIは既に開発の「ボトルネック期」に近づいているのでしょうか?業界関係者は、膨大なデータとより大きなモデルに依存する戦略は徐々に効果を失いつつあると指摘しています。元OpenAI科学者のSutskeverは、「インターネットは一つしかない」と述べ、データの増加は鈍化しており、AIの飛躍を促してきた「化石燃料」は徐々に枯渇しつつあると述べています。
GPT-5の将来について、Altmanは明確なタイムラインを示していません。OpenAIがいつ、そしてGPT-5と呼ぶに値するモデルをリリースするかは依然として不明です。このGPT-5をめぐる苦戦は、AIの将来の方向性について、人々に深い考察を促しています。