SanaはNVIDIAが開発したテキストから画像を生成するフレームワークで、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。このモデルは驚異的な速度で高解像度かつ高品質な画像を合成し、強力なテキストと画像の整合性を維持しながら、ノートパソコンのGPUにも展開可能です。Sanaモデルは線形拡散トランスフォーマーに基づいており、事前学習済みのテキストエンコーダーと空間圧縮された潜在特徴エンコーダーを使用し、絵文字、中国語、英語、およびそれらを組み合わせたプロンプトにも対応しています。