Na área de geração de imagens, a tecnologia de geração de imagens multicamadas está gradualmente mudando a maneira como os usuários interagem com os modelos de geração, permitindo que os usuários isolem, selecionem e editem camadas de imagens específicas. Recentemente, pesquisadores da Microsoft lançaram uma nova tecnologia chamada "Anonymous Region Transformer" (ART), que pode gerar imagens transparentes multicamadas variáveis diretamente com base em prompts de texto globais e layouts de regiões anônimas.

QQ_1741139755445.png

O ART foi inspirado na "teoria dos esquemas", usando layouts de regiões anônimas para permitir que o modelo de geração decida autonomamente quais informações visuais são alinhadas com quais informações de texto. Este método contrasta fortemente com os layouts semânticos tradicionais. Os layouts semânticos tradicionais geralmente exigem correspondências explícitas, enquanto os layouts de regiões anônimas do ART oferecem maior flexibilidade.

Vale ressaltar que o ART introduz um mecanismo de recorte de região por camada, que seleciona apenas as informações visuais relacionadas a cada região anônima, reduzindo significativamente o custo de cálculo da atenção. Este método não apenas acelera a geração, tornando-a mais de 12 vezes mais rápida do que os métodos de atenção completa, mas também reduz efetivamente os conflitos entre as camadas, permitindo o processamento de mais de 50 camadas de geração de imagens diferentes.

Além disso, o ART também apresenta um autocodificador de imagens transparentes multicamadas de alta qualidade, que suporta a codificação e decodificação conjunta da transparência de imagens multicamadas variáveis. Este design inovador oferece novas possibilidades para o controle preciso e a geração de camadas escaláveis, impulsionando ainda mais o desenvolvimento da criação de conteúdo interativo.

Projeto: https://art-msra.github.io/

Destaques:

🌟 O ART pode gerar imagens transparentes multicamadas diretamente com base em prompts de texto globais e layouts de regiões anônimas.

⚡️ Emprega um mecanismo de recorte de região por camada, melhorando significativamente a eficiência da geração de imagens, 12 vezes mais rápido que os métodos tradicionais.

💡 Um novo autocodificador de alta qualidade suporta o controle e a geração precisos de imagens transparentes multicamadas, impulsionando a criação de conteúdo interativo.