先日、NVIDIAはSanaという名前の画像生成モデルをオープンソース化しました。このモデルのパラメータ数はわずか6000万個で、運用ハードルを大幅に低減しています。

image.png

Sanaは4096×4096ピクセルの高解像度画像を生成でき、16GBのグラフィックカードで動作します。1024×1024ピクセルの高品質画像を1秒未満で生成する速度は、同種のモデルの中でも非常に優れています。

研究チームは、深層圧縮自己符号化器(DC-AE)を導入しました。従来の自己符号化器と比較して、Sanaの圧縮率は32倍にも達し、潜在変数の数を大幅に削減します。これは超高解像度画像の生成に非常に重要です。さらに、Sanaは線形拡散トランスフォーマー(DiT)を採用し、従来の二次注意機構に代えて線形注意機構を使用することで、計算量をO(N)に削減し、3×3の深層畳み込みによって局所情報の捕捉能力を高めています。この設計により、Sanaは4K画像生成時の遅延を1.7倍向上させています。

テキストエンコーディングに関しては、Sanaは従来のT5モデルに代えて、小型のデコーダー専用大規模言語モデルGemmaを採用しています。Gemmaは複雑な指示の理解と実行において優れた性能を発揮し、画像とテキスト間の整合性を強化します。さらに、Sanaはトレーニングと推論戦略を最適化し、自動的にラベル付けを行い、CLIPスコアの高い記述を選択することで、テキストと画像の一貫性を向上させています。新たに提案されたFlow-DPM-Solverアルゴリズムにより、推論ステップを14~20ステップに削減し、性能を大幅に向上させています。

総合的な性能において、Sanaは複数の最先端のテキストツーイメージ拡散モデルの中で優れた性能を示しています。512×512ピクセル解像度において、Sana-0.6の処理能力はPixArt-Σの5倍であり、画像生成品質においても優れた性能を発揮しています。また、1024×1024ピクセル解像度においても、Sana-0.6Bは3億パラメータ未満のモデルの中で顕著な優位性を示しています。

Sana-0.6Bは強力な性能を持つだけでなく、16GBのノートパソコンGPUでも高速に画像を生成でき、コンテンツクリエイターの高効率な創作活動を支援します。Sana-0.6BはFlux-12Bと競争力があり、パラメータ数は20分の1なのに、速度はなんと100倍速いと言われています。

興味深いことに、Sanaのプロンプトは英語、中国語、絵文字に対応しています。ユーザーは中国語の詩句を入力して、それに関連する芸術的な画像を生成できます。さらに、Sanaは一定の安全性も備えており、ユーザーが不適切な単語を入力した場合、システムは自動的にハートマーク❤️で置き換え、不快なコンテンツの生成を防ぎます。

例えば、AIbaseで「猫が草原で遊び、星🌟」というプロンプトを入力すると、非常に高速で、優れた効果で画像が生成されます。

image.png

また、「可愛い🐼が🎋を食べている、水墨画風」というプロンプトを入力すると、モデルが絵文字を正確に認識していることが分かります。

image.png

特筆すべきは、SanaがComfyUIの公式サポートを受け、Loraトレーニングツールも備えていることです。これにより、ユーザーはより便利に利用でき、実用性も大幅に向上しています。興味のある方はぜひお試しください。

プロジェクト入口:https://nv-sana.mit.edu/

要点:

🌟 ** 高速生成 **:Sanaは最大4096×4096ピクセルの高品質画像を高速に生成でき、一般的なノートパソコンのGPUでも使用できます。

⚙️ ** 革新的設計 **:深層圧縮自己符号化器と線形拡散トランスフォーマーにより、生成速度と品質が大幅に向上しています。

🚀 ** 優れた性能 **:Sanaは複数のテストで優れた性能を示し、処理能力は他の最先端モデルを大幅に上回り、高速なコンテンツ制作を支援します。