最新の研究で、Flash Diffusionという新しい手法が画像生成技術に革命的な進歩をもたらしました。この手法は、ノイズ除去済みの多段階予測結果を単一ステップで生成するように予測モデルを訓練することで、事前学習済み拡散モデルの生成プロセスを高速化します。

image.png

製品入口:https://top.aibase.com/tool/flash-diffusion

研究者によると、Flash Diffusion手法は、少ないステップ数での画像生成において最先端のFIDとCLIP-Scoreを達成しただけでなく、訓練に必要なGPU時間と訓練可能なパラメータ数も既存の手法よりも少ないとのことです。さらに、テキストから画像への変換、修復、顔の入れ替え、超解像度など、複数のタスクでその効率性と多様性を示しました。

研究者らは、Flash Diffusion手法の革新的な点は、調整可能な分布を用いて時間ステップを選択することで、予測モデルが特定の時間ステップをより適切に特定できる点にあると指摘しています。さらに、生成サンプルと真のサンプルを区別する識別器を訓練する敵対的目標を採用し、潜在空間に適用することで計算コストを削減しています。同時に、生成サンプルと予測モデルが学習したデータ分布を密接に類似させるために、分布マッチング蒸留損失も使用しました。

image.png

さらに、研究者らは、Flash Diffusion手法がUNetベースのノイズ除去器(SD1.5、SDXL)やDiT(Pixart-α)、そしてアダプターを含む様々なバックボーンネットワークに適応できることを示しました。多くの例で、この手法はサンプリングステップ数を大幅に削減しながら、画像生成の高品質を維持しています。

Flash Diffusion手法の登場は、画像生成技術に新たな活力を吹き込み、生成プロセスの効率性と多機能性を大幅に向上させました。この画期的な手法は、様々な分野に大きな影響を与える可能性があり、関連研究分野に新たな機会と課題をもたらすでしょう。