La conversión de estilo impulsada por texto es una tarea importante en el campo de la síntesis de imágenes, cuyo objetivo es fusionar el estilo de una imagen de referencia con el contenido descrito en un aviso de texto. Recientemente, los modelos de generación de imágenes a partir de texto han logrado avances significativos, permitiendo una conversión de estilo más refinada mientras se mantiene una alta fidelidad del contenido. Esta tecnología tiene un enorme valor práctico en áreas como la pintura digital, la publicidad y el diseño de juegos.
Sin embargo, las técnicas de conversión de estilo existentes aún presentan algunas deficiencias. Los principales desafíos incluyen:
Sobreajuste de estilo: Los modelos existentes tienden a replicar todos los elementos de la imagen de referencia, lo que resulta en imágenes generadas demasiado cercanas al estilo de la imagen de referencia, limitando la flexibilidad estética y la adaptabilidad de las imágenes generadas.
Alineación de texto inexacta: El modelo puede priorizar los colores o patrones dominantes de la imagen de referencia, incluso si estos elementos contradicen las instrucciones del aviso de texto.
Artefactos generados: La conversión de estilo puede introducir artefactos innecesarios, como patrones repetidos (como el efecto de tablero de ajedrez), que dañan la composición general de la imagen.
Para abordar estos problemas, los investigadores propusieron tres estrategias complementarias:
Fusión intermodal basada en AdaIN: Se utiliza el mecanismo de normalización de instancia adaptativa (AdaIN) para integrar las características de la imagen de estilo en las características del texto, y luego fusionarlas con las características de la imagen. Esta fusión adaptativa crea una característica guía más cohesiva, haciendo que las características de estilo se alineen más armoniosamente con las instrucciones basadas en texto. AdaIN integra eficazmente el estilo en el contenido ajustando las características del contenido para reflejar las estadísticas de estilo, al tiempo que mantiene la coherencia entre el contenido y la descripción del texto.
Guía sin clasificador basada en estilo (SCFG): Se desarrolla un método de guía de estilo que se centra en el estilo objetivo y reduce las características de estilo innecesarias. Mediante el uso de un modelo generativo con control de diseño (como ControlNet), se genera una imagen "negativa" que carece del estilo objetivo. Esta imagen negativa actúa como una indicación "vacía" en los modelos de difusión, permitiendo que la guía se centre completamente en los elementos del estilo objetivo.
Estabilización del diseño mediante un modelo maestro: Se introduce un modelo maestro en las etapas iniciales de la generación. Este modelo maestro se basa en el modelo original de imagen a texto, ejecuta simultáneamente la generación de eliminación de ruido con el mismo aviso de texto que el modelo de estilo, y comparte su mapa de atención espacial en cada paso de tiempo. Este método asegura una distribución espacial estable y consistente, mitigando eficazmente problemas como los artefactos de tablero de ajedrez. Además, permite mantener una distribución espacial consistente para el mismo aviso de texto entre diferentes imágenes de referencia de estilo.
Los investigadores verificaron la efectividad de estos métodos mediante numerosos experimentos. Los resultados muestran que el método puede mejorar significativamente la calidad de la conversión de estilo de las imágenes generadas y mantener la coherencia con el aviso de texto. Más importante aún, el método se puede integrar en los marcos de conversión de estilo existentes sin necesidad de ajuste fino.
Los investigadores descubrieron experimentalmente que la inestabilidad en el mecanismo de atención cruzada puede provocar la aparición de artefactos. El mecanismo de autoatención juega un papel clave en el mantenimiento del diseño y la estructura espacial de la imagen, estabilizando el diseño básico del proceso de generación mediante la captura de relaciones espaciales de alto nivel. Al reemplazar selectivamente algunos mapas de autoatención en la imagen estilizada, se pueden conservar las relaciones espaciales de las características clave de la imagen, asegurando que el diseño central permanezca consistente durante todo el proceso de eliminación de ruido.
Además, la guía sin clasificador basada en estilo (SCFG) aborda eficazmente el problema de la ambigüedad del estilo, ya que puede enfatizar selectivamente los elementos de estilo deseados mientras filtra las características irrelevantes o contradictorias. Este método, mediante la generación de una imagen de estilo negativo utilizando un modelo de control de diseño, permite que el modelo se centre en la transferencia de los componentes de estilo deseados, mitigando así el riesgo de sobreajuste a componentes de estilo irrelevantes.
Los investigadores también realizaron experimentos de ablación para evaluar el impacto de cada componente. Los resultados muestran que la fusión intermodal basada en AdaIN y el modelo maestro mejoran significativamente la precisión de la alineación del texto, y que tienen un efecto complementario.
En resumen, el método propuesto en esta investigación puede mitigar eficazmente los problemas de sobreajuste de estilo e inestabilidad de diseño presentes en las técnicas de conversión de estilo impulsadas por texto existentes, permitiendo la generación de imágenes de mayor calidad y ofreciendo una solución multifuncional y robusta para la tarea de síntesis de imágenes a partir de texto.
Enlace del artículo: https://arxiv.org/pdf/2412.08503