OpenAIは最近、sCM(簡素化型・安定型・拡張型整合性モデル)と呼ばれる画期的な技術を発表しました。この革新的な技術は、AI画像モデルのトレーニング方法を根本から変えました。従来の整合性モデル(CMs)を基に大きな進歩を遂げ、高速な画像生成を可能にしました。
技術の中核となる利点:
わずか2ステップの計算で高品質な画像を生成
A100 GPUで画像生成にかかる時間はわずか0.11秒
従来の拡散モデルと比較して、速度が50倍向上
最大15億パラメータという、新たな記録を達成
実際のテストでは、sCMは目覚ましい成果を示しました。CIFAR-10データセットでFIDスコア2.06、ImageNetで512x512ピクセルの画像生成において1.88という優れたスコアを達成しました。これらの指標は、既存の最先端の拡散モデルと比べて約10%劣るものの、速度は飛躍的に向上しています。
技術革新の鍵は、従来の整合性モデルの根本的な問題を解決したことでした。従来のモデルは離散的な時間ステップを使用していたため、追加のパラメータが必要な上にエラーが発生しやすいという欠点がありました。OpenAIの研究チームは、簡素化された理論的枠組みを構築し、様々な手法を統一することで、トレーニングの不安定性の主な原因を特定し、解決することに成功しました。
さらに期待されるのは、この技術が持つ強力な拡張性です。OpenAIはImageNetデータセットを用いて、パラメータ数15億個のモデルのトレーニングに成功しました。これは同種のモデルでは初めてのことです。研究によると、モデルの規模が大きくなるにつれて画像の品質が向上するため、今後、さらに大規模なモデルのトレーニングが可能になる可能性があります。