SanaはNVIDIAが開発したテキストツーイメージ生成フレームワークで、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。高速性と強力なテキストと画像の整合性により、ノートパソコンのGPUでも動作し、画像生成技術の大きな進歩を示しています。このモデルは線形拡散変換器をベースとし、事前学習済みのテキストエンコーダと空間圧縮潜在特徴エンコーダを使用して、テキストプロンプトに基づいて画像の生成と変更を行います。SanaのオープンソースコードはGitHubで公開されており、芸術創作、教育ツール、モデル研究など、幅広い研究と応用が期待されます。