画像生成分野において、多層画像生成技術はユーザーと生成モデルのインタラクション方法を徐々に変えつつあり、ユーザーは特定の画像レイヤーを分離、選択、編集できるようになっています。最近、マイクロソフトの研究者らが「Anonymous Region Transformer(ART)」と呼ばれる新しい技術を発表しました。これは、グローバルなテキストプロンプトと匿名領域レイアウトに基づいて、可変多層の透明画像を直接生成できる技術です。

QQ_1741139755445.png

ARTの設計は「スキーマ理論」に着想を得ており、匿名領域レイアウトを採用することで、生成モデルはどの視覚情報とどのテキスト情報が対応付けられるかを自律的に決定できます。この方法は、従来のセマンティックレイアウトとは対照的です。従来のセマンティックレイアウトは明確な対応関係が必要ですが、ARTの匿名領域レイアウトはより大きな柔軟性を提供します。

注目すべきは、ARTがレイヤーごとの領域クロッピングメカニズムを導入している点です。このメカニズムは、各匿名領域に関連する視覚情報のみを選択するため、アテンション計算のコストを大幅に削減します。この方法は、生成速度を向上させるだけでなく(従来の全アテンション方式より12倍以上高速)、レイヤー間の競合も効果的に削減し、50以上の異なるレイヤーを持つ画像生成を処理できます。

さらに、ARTは高品質な多層透明画像のオートエンコーダーも提案しており、可変多層画像の透明度を統合的に直接エンコードおよびデコードできます。この革新的な設計は、正確な制御と拡張可能なレイヤー生成の可能性を広げ、インタラクティブなコンテンツ制作をさらに推進します。

プロジェクト: https://art-msra.github.io/

要点:

🌟 ARTはグローバルなテキストプロンプトと匿名領域レイアウトに基づいて、多層透明画像を直接生成できます。

⚡️ レイヤーごとの領域クロッピングメカニズムを採用することで、画像生成効率を大幅に向上させ、従来の方法より12倍高速です。

💡 新しい高品質なオートエンコーダーは、多層透明画像の正確な制御と生成をサポートし、インタラクティブなコンテンツ制作を推進します。