En el campo de la generación de imágenes, las técnicas de generación de imágenes multicapa están cambiando gradualmente la forma en que los usuarios interactúan con los modelos generativos, permitiendo a los usuarios aislar, seleccionar y editar capas de imágenes específicas. Recientemente, investigadores de Microsoft presentaron una nueva técnica llamada "Anonymous Region Transformer" (ART), que puede generar imágenes transparentes multicapa variables directamente a partir de indicaciones de texto globales y un diseño de regiones anónimas.

QQ_1741139755445.png

El diseño de ART se inspira en la "teoría de esquemas". Al utilizar un diseño de regiones anónimas, el modelo generativo puede decidir de forma autónoma qué información visual se alinea con qué información de texto. Este método contrasta con los diseños semánticos tradicionales. Los diseños semánticos tradicionales suelen requerir correspondencias explícitas, mientras que el diseño de regiones anónimas de ART ofrece una mayor flexibilidad.

Cabe destacar que ART introduce un mecanismo de recorte de regiones por capas, que solo selecciona la información visual relacionada con cada región anónima, lo que reduce significativamente el coste computacional de la atención. Este método no solo acelera la generación, haciéndola más de 12 veces más rápida que los métodos de atención completa, sino que también reduce eficazmente los conflictos entre capas, pudiendo gestionar la generación de imágenes de más de 50 capas diferentes.

Además, ART propone un autocodificador de imágenes transparentes multicapa de alta calidad, que admite la codificación y decodificación conjunta de la transparencia de imágenes multicapa variables. Este diseño innovador ofrece nuevas posibilidades para el control preciso y la generación de capas escalables, impulsando aún más el desarrollo de la creación de contenido interactivo.

Proyecto: https://art-msra.github.io/

Puntos clave:

🌟 ART puede generar imágenes transparentes multicapa directamente a partir de indicaciones de texto globales y un diseño de regiones anónimas.

⚡️ Emplea un mecanismo de recorte de regiones por capas, lo que mejora significativamente la eficiencia de la generación de imágenes, siendo 12 veces más rápido que los métodos tradicionales.

💡 Un nuevo autocodificador de alta calidad admite el control y la generación precisos de imágenes transparentes multicapa, impulsando la creación de contenido interactivo.