テック界最新のニュースとして、OpenAIが最新のGPT-4oモデルに、これまでにない高度な画像生成機能を搭載したと発表しました。OpenAIのCEOであるサム・アルトマン氏は、ソーシャルメディアプラットフォームX上で、初めてこのモデルが生成した画像を見た時の衝撃を興奮気味に共有し、信じられないほど素晴らしいと述べ、ユーザーの創造性を最大限に発揮することを期待しています。

image.png

新機能のハイライトは以下の通りです。

- テキストコンテンツを正確にレンダリングし、高品質の画像を提供します。

- テキスト、画像、音声など、様々な入力と出力方式をサポートします。

- 複雑な指示を理解し、コンテキストを組み合わせることで、リアルな一人称視点の画像を作成します。

以前の画像生成モデルであるDALL・Eとは異なり、GPT-4oは自己回帰モデルを採用し、ChatGPTにネイティブに組み込まれています。これは、最大10~20個もの異なるオブジェクトを含む複雑な指示を処理できることを意味し、競合他社が通常5~8個しか処理できないのに対し、より強力な能力を示しています。

image.png

ユーザーは、アスペクト比、色、透明な背景などを指定するなど、簡潔にニーズを記述するだけで、モデルは迅速に画像を生成します。複雑なディテールをレンダリングするのに少し時間がかかる場合もありますが、最終的な効果はそれを補って余りあるものです。

発表会では、複数の具体的な事例がデモされました。例えば、集合写真をアニメ風の画像に変換するデモでは、人物の特徴を維持しつつ、アニメの視覚効果を見事に融合させていました。また、相対性理論に関するユーモラスな漫画を生成するデモでは、完成度の高い、面白みのある漫画が生成されました。

OpenAIはこの機能の安全性にも非常に注意を払っており、生成されたすべての画像にはC2PAメタデータ識別子が付与され、コンテンツのソースの追跡可能性を確保し、不正なリクエストによる生成を効果的に防止しています。

もちろん、OpenAIの画像生成ツールにも欠点がないわけではありません。例えば、トリミング、コンテキストの理解、非ラテン文字のレンダリングなど、いくつかの点で改善の余地があります。しかし、OpenAIは今後これらの問題を継続的に改善していくとしています。

一方、Googleも同時期に自社の強力なAIモデルGemini2.5Pro Experimentalを発表し、推論とプログラミング能力の著しい向上を示しました。これらの動きは、AI分野の競争が激化し、大手テクノロジー企業がより高度な技術を次々と投入し、「AI覇権争い」で主導権を握ろうとしていることを示しています。