NVIDIAは、マサチューセッツ工科大学および清華大学の研究者と協力して、Sanaという新しいテキストから画像を生成するフレームワークを開発しました。このフレームワークは、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。
Sanaは、高解像度で高品質、かつテキストと高度に整合した画像を非常に高速に合成でき、ノートパソコンのGPUでも動作します。
Sana の主要な設計要素:
深層圧縮オートエンコーダー:従来のオートエンコーダーが画像を8倍に圧縮するのに対し、Sanaで訓練されたオートエンコーダーは画像を32倍に圧縮でき、潜在変数の数を効果的に削減します。
線形DiT:Sanaは、DiT内のすべての標準的なアテンションメカニズムを線形アテンションメカニズムに置き換えています。これにより、高解像度画像生成時の効率が向上し、品質が低下することはありません。
デコーダーのみのテキストエンコーダー:研究者らは、テキストエンコーダーとしてT5の代わりに、より高度で小型なデコーダーのみの言語モデル(LLM)であるGemmaを使用し、複雑な人間による指示とコンテキスト学習を設計して、画像とテキストの一貫性を強化しました。
効率的な訓練とサンプリング:Sanaは、Flow-DPM-Solverを提案してサンプリングステップを削減し、効率的なトークン化と選択によってモデルの収束を加速させます。
これらの設計のおかげで、Sana-0.6Bは、Flux-12Bなどの大規模拡散モデルと同等の性能を達成しながら、モデルサイズは20分の1、速度は100倍以上高速です。
さらに、Sana-0.6Bは16GBのノートパソコンGPUに展開でき、1024×1024ピクセルの画像生成に1秒もかかりません。Sanaは、低コストでのコンテンツ作成を可能にします。
Sanaの主な利点は、その効率性です。4K画像生成において、Sana-0.6Bのスループットは、最先端の方法(FLUX)よりも100倍以上高速であり、1K解像度では40倍高速です。
研究者らは、Sana-0.6Bの量子化を行い、エッジデバイスへの展開も行いました。RTX-4090 GPUを搭載した民生用デバイスでは、1024×1024ピクセルの画像生成に0.37秒しかかからず、リアルタイム画像生成のための強力な基礎モデルを提供します。
今後、研究者らはSanaに基づいて、効率的なビデオ生成プロセスを構築する予定です。しかし、この研究には、生成された画像の内容の安全性と制御性を完全に保証できないこと、テキストレンダリング、顔や手の生成などの複雑な状況で課題があることなど、いくつかの限界もあります。
プロジェクトアドレス:https://nvlabs.github.io/Sana/