A transformação de estilo impulsionada por texto é uma tarefa importante na área de síntese de imagens, com o objetivo de fundir o estilo de uma imagem de referência com o conteúdo descrito por uma legenda de texto. Recentemente, os modelos de geração de imagem a partir de texto alcançaram progressos significativos, permitindo transformações de estilo mais refinadas, mantendo ao mesmo tempo a alta fidelidade do conteúdo. Essa tecnologia tem um enorme valor prático em áreas como pintura digital, publicidade e design de jogos.

image.png

No entanto, as tecnologias atuais de transformação de estilo ainda apresentam algumas deficiências. Os principais desafios incluem:

Superajuste de estilo: Os modelos existentes tendem a copiar todos os elementos da imagem de referência, resultando em imagens geradas muito próximas ao estilo da imagem de referência, limitando a flexibilidade e adaptabilidade estética das imagens geradas.

Alinhamento impreciso de texto: O modelo pode priorizar as cores ou padrões dominantes da imagem de referência, mesmo que esses elementos contradigam as instruções da legenda de texto.

Artefatos gerados: A transformação de estilo pode introduzir artefatos desnecessários, como padrões repetidos (como o efeito de tabuleiro de damas), comprometendo o layout geral da imagem.

image.png

Para resolver esses problemas, os pesquisadores propuseram três estratégias complementares:

Fusão multimodal baseada em AdaIN: Utilizando o mecanismo de Normalização de Instância Adaptativa (AdaIN), as características da imagem de estilo são incorporadas às características do texto e, em seguida, fundidas com as características da imagem. Essa fusão adaptativa cria uma característica guia mais coesa, fazendo com que as características de estilo se alinhem mais harmoniosamente com as instruções baseadas em texto. O AdaIN ajusta as características do conteúdo para refletir as estatísticas de estilo, incorporando efetivamente o estilo ao conteúdo, mantendo a consistência do conteúdo com a descrição do texto.

Guia sem classificador baseado em estilo (SCFG): Desenvolvimento de um método de guia de estilo que se concentra no estilo alvo e reduz as características de estilo desnecessárias. Usando um modelo de geração com controle de layout (como ControlNet), uma imagem "negativa" sem o estilo alvo é gerada. Essa imagem negativa atua como um prompt "vazio" em modelos de difusão, permitindo que a orientação se concentre totalmente nos elementos de estilo alvo.

Estabilização de layout usando um modelo professor: Introdução de um modelo professor nos estágios iniciais da geração. Esse modelo professor é baseado no modelo original de imagem a partir de texto, executa simultaneamente a geração de remoção de ruído com o mesmo prompt de texto que o modelo de estilo e compartilha seus mapas de atenção espacial a cada passo. Esse método garante uma distribuição espacial estável e consistente, mitigando efetivamente problemas como artefatos de tabuleiro de damas. Além disso, ele garante um layout espacial consistente para o mesmo prompt de texto em diferentes imagens de referência de estilo.

Os pesquisadores validaram a eficácia desses métodos por meio de extensos experimentos. Os resultados mostram que o método pode melhorar significativamente a qualidade da transformação de estilo das imagens geradas e manter a consistência com os prompts de texto. Mais importante ainda, o método pode ser integrado às estruturas existentes de transformação de estilo sem a necessidade de ajuste fino.

Os pesquisadores descobriram experimentalmente que a instabilidade no mecanismo de atenção cruzada leva ao aparecimento de artefatos. O mecanismo de autoatenção desempenha um papel crucial na manutenção do layout e da estrutura espacial da imagem, estabilizando o processo de geração por meio da captura de relações espaciais de alto nível. Ao substituir seletivamente alguns mapas de autoatenção na imagem estilizada, as relações espaciais das características-chave da imagem podem ser preservadas, garantindo que o layout principal permaneça consistente durante todo o processo de remoção de ruído.

Além disso, o guia sem classificador baseado em estilo (SCFG) resolve efetivamente o problema da ambiguidade de estilo, permitindo enfatizar seletivamente os elementos de estilo desejados, filtrando características irrelevantes ou conflitantes. Esse método, usando um modelo de controle de layout para gerar uma imagem de estilo negativo, permite que o modelo se concentre na transferência dos componentes de estilo desejados, mitigando o risco de superajuste a componentes de estilo irrelevantes.

Os pesquisadores também conduziram experimentos de ablação para avaliar o impacto de cada componente. Os resultados mostram que a fusão multimodal baseada em AdaIN e o modelo professor melhoram significativamente a precisão do alinhamento de texto e têm efeitos complementares.

Em resumo, o método proposto nesta pesquisa mitiga efetivamente os problemas de superajuste de estilo e instabilidade de layout presentes nas tecnologias existentes de transformação de estilo impulsionada por texto, permitindo a geração de imagens de maior qualidade e fornecendo uma solução multifuncional e robusta para tarefas de síntese de imagem a partir de texto.

Endereço do artigo: https://arxiv.org/pdf/2412.08503