La inteligencia artificial (IA) ha logrado avances significativos en el campo de la generación de imágenes, pero mantener la consistencia de personajes u objetos específicos en imágenes generadas en diferentes escenarios o en múltiples creaciones ha sido un desafío importante en la industria. Recientemente, el equipo de creación inteligente de ByteDance lanzó su último proyecto de código abierto, UNO, con el objetivo de desbloquear una mayor capacidad de control de la generación, especialmente en lo que respecta a mantener la coherencia del sujeto de la imagen, lo que supone un nuevo avance en el campo de la generación de imágenes con IA.

QQ_1744594414780.png

¿Ceguera de IA para las imágenes? UNO te ayuda a recordar al "protagonista"

En los procesos de generación de imágenes con IA anteriores, incluso con la misma descripción de entrada, los personajes u objetos generados podían variar significativamente en apariencia, lo que generaba inconvenientes en aplicaciones donde se necesita mantener la uniformidad de los personajes u objetos en diferentes imágenes. Por ejemplo, al crear una serie de cómics o un libro ilustrado, si la apariencia del protagonista cambia constantemente, se verá afectada la experiencia del usuario. El objetivo principal del proyecto UNO es resolver este problema de "ceguera", permitiendo que la IA "recuerde" con precisión el sujeto que el usuario desea mantener consistente al generar imágenes.

Descubriendo la tecnología central: síntesis de datos e innovación de modelos

La capacidad de UNO para lograr una generación de imágenes de alta consistencia se debe a su proceso de síntesis de datos de alta consistencia. Este proceso aprovecha al máximo la capacidad de generación de contexto inherente a los modelos de difusión (Diffusion Transformers, o DiT), generando datos de pares de múltiples sujetos con una alta consistencia.

Además, el propio modelo UNO presenta un diseño innovador, que incluye principalmente la alineación progresiva entre modalidades (progressive cross-modal alignment) y la codificación de posición rotatoria universal (universal rotary position embedding). Mediante estas técnicas, UNO puede comprender y alinear mejor la información de texto e imagen, logrando así una alta consistencia y capacidad de control en el proceso de generación impulsado por múltiples sujetos.

Puntos destacados de la funcionalidad: control tanto en escenas de un solo sujeto como de múltiples sujetos

La potencia de UNO radica en su capacidad para admitir la generación de imágenes impulsadas por un solo sujeto y por múltiples sujetos, garantizando al mismo tiempo una alta consistencia en los resultados generados. Esto significa que UNO puede manejar tanto la necesidad de mantener la imagen de un solo personaje sin cambios como la de mantener las características de varios objetos específicos en una escena que los contiene.

Mediante la entrada de condiciones de múltiples imágenes, UNO puede aprender y comprender las características del sujeto que el usuario desea mantener consistentes y reproducir con precisión estas características en el proceso de generación posterior, garantizando que la imagen del "protagonista" no se distorsione incluso con diferentes descripciones de la escena.

Potenciando el modelo DiT: liberando un potencial de generación más potente

Aunque la descripción del proyecto no especifica directamente en qué modelo DiT específico se basa el desarrollo de UNO, se destaca la utilización de la capacidad de generación de contexto de los modelos de difusión, y se publica el código de entrenamiento e inferencia, lo que facilita a los investigadores y desarrolladores la aplicación de la tecnología UNO a varios modelos DiT. Es previsible que la tecnología UNO contribuya a mejorar la fidelidad y la capacidad de control de los modelos DiT existentes al generar imágenes, especialmente en escenarios donde es necesario mantener la coherencia del contenido de la imagen.

huggingface:https://huggingface.co/bytedance-research/UNO