Dans le domaine de la génération d'images, les techniques de génération d'images multicouches modifient progressivement la façon dont les utilisateurs interagissent avec les modèles génératifs, permettant aux utilisateurs d'isoler, de sélectionner et de modifier des couches d'images spécifiques. Récemment, des chercheurs de Microsoft ont présenté une nouvelle technique appelée « Anonymous Region Transformer » (ART), capable de générer directement des images multicouches transparentes et variables en fonction d'une invite textuelle globale et d'une disposition de régions anonymes.

QQ_1741139755445.png

ART s'inspire de la « théorie des schémas ». En utilisant une disposition de régions anonymes, le modèle génératif peut décider de manière autonome quelles informations visuelles sont alignées avec quelles informations textuelles. Cette approche contraste fortement avec les dispositions sémantiques traditionnelles. Les dispositions sémantiques traditionnelles nécessitent généralement des correspondances explicites, tandis que la disposition de régions anonymes d'ART offre une plus grande flexibilité.

Il est important de noter qu'ART introduit un mécanisme de rognage de région par couche, qui sélectionne uniquement les informations visuelles liées à chaque région anonyme, réduisant ainsi considérablement le coût de calcul de l'attention. Cette méthode non seulement accélère la génération, la rendant plus de 12 fois plus rapide que les méthodes d'attention complètes, mais réduit également efficacement les conflits entre les couches, permettant de gérer plus de 50 couches d'images différentes.

De plus, ART propose un auto-encodeur d'images multicouches transparentes de haute qualité, permettant de coder et de décoder de manière conjointe la transparence des images multicouches variables. Cette conception innovante offre de nouvelles possibilités pour un contrôle précis et une génération de couches évolutive, stimulant ainsi le développement de la création de contenu interactif.

Projet : https://art-msra.github.io/

Points clés :

🌟 ART peut générer directement des images multicouches transparentes à partir d'une invite textuelle globale et d'une disposition de régions anonymes.

⚡️ L'utilisation d'un mécanisme de rognage de région par couche améliore considérablement l'efficacité de la génération d'images, la rendant 12 fois plus rapide que les méthodes traditionnelles.

💡 Un nouvel auto-encodeur de haute qualité prend en charge le contrôle et la génération précis d'images multicouches transparentes, stimulant la création de contenu interactif.