研究者らは最近、AI画像生成モデルのトレーニング速度を向上させることを目的としたREPAという新技術を開発しました。REPAはREPresentation Alignmentの略で、DINOv2などのモデルから得られる高品質な視覚表現を統合することで、トレーニング速度と出力品質を向上させます。

従来の拡散モデルは通常、ノイズの多い画像を作成し、それを徐々にクリアな画像に精緻化していきます。REPAは、このノイズ除去プロセスで生成される表現をDINOv2からの表現と比較するというステップを追加します。そして、拡散モデルの隠れ状態をDINOv2の表現に投影します。

QQ20241016-142502.png

研究者らによると、REPAはトレーニング効率の向上だけでなく、生成される画像の品質も向上させます。様々な拡散モデルアーキテクチャを用いたテストでは、顕著な改善が見られました。1. トレーニング時間が最大17.5倍短縮、2. 出力画像品質の劣化なし、3. 標準的な画像品質指標においてより優れた性能を示しました。

例えば、REPAを用いたSiT-XLモデルは、従来のモデルが700万ステップ必要としていた目標を、わずか40万ステップで達成しました。研究者らは、これはより強力で効率的なAI画像生成システムに向けた重要な一歩であると考えています。

REPA技術の登場は、AI画像生成モデルのトレーニング速度と出力品質に新たな希望をもたらしました。この技術の更なる発展と応用により、更なる革新とブレークスルーが期待されます。