Google DeepMindとMIT(マサチューセッツ工科大学)は、画期的な研究成果を発表しました。開発された新しい自己回帰モデル「Fluid」は、テキストから画像を生成する分野で飛躍的な進歩を遂げ、105億パラメーター規模に拡張されたことで、優れた性能を示しています。
この研究は、業界の一般的な認識を覆すものです。従来、自己回帰モデルは言語処理分野で主導的な地位を占めていましたが、画像生成においてはStable DiffusionやGoogle Imagen3などの拡散モデルに劣ると考えられていました。研究チームは、2つの重要な設計要素を革新的に導入することで、自己回帰モデルの性能と拡張性を大幅に向上させました。それは、離散的なトークンを連続的なトークンに置き換えること、そして固定された順序の代わりにランダムな生成順序を導入することです。
画像情報処理において、連続的なトークンの利点は明らかです。従来の離散的なトークンは、画像領域を有限の語彙表内のコードにエンコードしますが、これは不可避的に情報損失につながり、大型モデルであっても、対称的な目などの詳細な特徴を正確に生成することは困難でした。一方、連続的なトークンはより正確な情報を保存できるため、画像の再構成品質が大幅に向上します。
研究チームは、画像の生成順序についても革新的なアプローチを取りました。従来の自己回帰モデルは、通常、左から右へ、上から下へと固定された順序で画像を生成します。研究者たちはランダムな順序付けの方法を試み、モデルが各ステップで任意の位置の複数のピクセルを予測できるようにしました。この方法は、全体的な画像構造を正確に把握する必要があるタスクで特に優れた性能を発揮し、テキストと生成された画像の一致度を評価するGenEvalベンチマークテストで顕著な優位性を示しました。
Fluidモデルの実績は、研究の価値を証明しています。105億パラメーター規模に拡張されたFluidは、複数の重要なベンチマークテストで既存のモデルを上回りました。注目すべきは、わずか3.69億パラメーターの小型Fluidモデルが、200億パラメーターのPartiモデルがMS-COCOデータセットで達成したFIDスコア(7.23)と同等のスコアを達成したことでしょう。
この研究成果は、Fluidのような自己回帰モデルが、拡散モデルの強力な代替手段となる可能性を示唆しています。複数回の順方向と逆方向の伝播が必要な拡散モデルとは異なり、Fluidは一度の伝播だけで画像を生成できます。この効率性の利点は、モデルがさらに拡張された場合にさらに顕著になるでしょう。