No campo da geração de imagens a partir de texto, os modelos de difusão demonstraram capacidades extraordinárias, mas ainda apresentam algumas deficiências na geração de imagens esteticamente agradáveis. Recentemente, uma equipe de pesquisa da ByteDance e da Universidade de Ciência e Tecnologia da China apresentou uma nova técnica chamada "Cross-Attention Value Mixing Control" (VMix), um adaptador projetado para melhorar a qualidade das imagens geradas e manter a generalidade para diversos conceitos visuais.

image.png

A ideia central do adaptador VMix reside no aprimoramento da performance estética dos modelos de difusão existentes por meio do design de métodos de controle condicional superiores, garantindo simultaneamente o alinhamento entre a imagem e o texto.

O adaptador alcança seus objetivos principalmente em duas etapas: primeiro, ele decompõe a entrada de texto em descrição de conteúdo e descrição estética por meio da inicialização de embeddings estéticos; segundo, durante o processo de denoising, ele incorpora as condições estéticas por meio da mistura de atenção cruzada, melhorando assim o efeito estético da imagem e mantendo a consistência entre a imagem e a legenda. Essa flexibilidade permite que o VMix seja aplicado a vários modelos da comunidade sem a necessidade de re-treinamento, melhorando assim o desempenho visual.

Os pesquisadores validaram a eficácia do VMix por meio de uma série de experimentos, mostrando que o método supera outros métodos de última geração na geração de imagens esteticamente agradáveis. Além disso, o VMix é compatível com vários módulos da comunidade (como LoRA, ControlNet e IPAdapter), expandindo ainda mais sua gama de aplicações.

image.png

O controle de granularidade estética fina do VMix se manifesta na capacidade de melhorar dimensões específicas da imagem por meio de tags estéticas unidimensionais ou melhorar a qualidade geral da imagem por meio de tags estéticas completas e positivas ao ajustar os embeddings estéticos. Em experimentos, quando o usuário forneceu uma descrição de texto como "uma garota encostada em uma janela, com uma brisa suave, retrato de verão, meio-corpo, plano médio", o adaptador VMix melhorou significativamente a beleza da imagem gerada.

O adaptador VMix abre novas perspectivas para melhorar a qualidade estética da geração de imagem a partir de texto, e espera-se que seu potencial seja explorado em aplicações mais amplas no futuro.

Link do projeto:https://vmix-diffusion.github.io/VMix/

Destaques:

🌟 O adaptador VMix decompõe as instruções de texto em descrições de conteúdo e estéticas por meio de embeddings estéticos, melhorando a qualidade da geração de imagens.

🖼️ O adaptador é compatível com vários modelos da comunidade, permitindo que os usuários melhorem os efeitos visuais das imagens sem a necessidade de re-treinamento.

✨ Os resultados experimentais mostram que o VMix supera as tecnologias existentes na geração estética e possui amplo potencial de aplicação.