Un estudio reciente del laboratorio Tongyi de Alibaba demuestra que los modelos de difusión Transformer existentes para la generación de imágenes a partir de texto ya poseen la capacidad de generar múltiples imágenes con relaciones específicas. Solo necesitan un pequeño "empujón" para "integrar" y generar conjuntos de imágenes de alta calidad.

Los modelos de difusión tradicionales son como estudiantes que "memorizan": necesitan un entrenamiento con una gran cantidad de datos para generar imágenes de alta calidad.

Pero con la ayuda de IC-LoRA, se convierten en estudiantes brillantes que "aprenden por analogía". Solo necesitan unas pocas muestras para aprender nuevas habilidades.

image.png

El principio detrás de esto no es complicado. Los investigadores descubrieron que los modelos de difusión de texto a imagen existentes ya poseen cierta capacidad de "aprendizaje contextual", solo se necesitan algunas técnicas para activarla.

Realizaron varios experimentos generando múltiples imágenes directamente con modelos de texto a imagen existentes. Descubrieron que el modelo podía comprender las relaciones entre las imágenes y generar conjuntos de imágenes coherentes. Aunque aún existen pequeños defectos, los resultados son notables.

Así que diseñaron un proceso simple y efectivo para despertar la capacidad de "aprendizaje contextual" de los modelos de difusión:

  • Combinar varias imágenes en una sola imagen grande, en lugar de concatenar tokens como antes. Esto equivale a procesar imágenes directamente en el modelo de difusión, en lugar de tokens abstractos.

  • Combinar las descripciones de texto de cada imagen en un prompt largo. De esta manera, el modelo puede procesar simultáneamente la información de múltiples imágenes y comprender sus relaciones.

Por ejemplo:

image.png

Indicación: "En esta secuencia de tres imágenes de aventura, [IMAGEN1] Ethan, un valiente arqueólogo de aspecto rudo, descubre un antiguo mapa en un soleado sitio de excavación en el desierto. Su entusiasmo es evidente mientras cepilla la arena, [IMAGEN2] transición a una vibrante ciudad extranjera en un mercado bullicioso, donde Ethan negocia con comerciantes locales y reúne suministros para su misión, [IMAGEN3] finalmente, Ethan atraviesa una densa jungla brumosa, con imponentes árboles y exótica vida silvestre que resaltan los desafíos y misterios de su viaje.

image.png

Indicación: "En una cautivadora historia de resiliencia, [IMAGEN1] vemos a Lena, una niña decidida, sembrando en campos áridos, con determinación en su rostro, [IMAGEN2] transición a ella cultivando las plantas, regándolas diariamente, y sus esfuerzos dan sus frutos lentamente, [IMAGEN3] culminando finalmente en un jardín exuberante y lleno de vida, donde Lena se para con orgullo entre sus creaciones, simbolizando el crecimiento y la perseverancia."

  • Ajustar finamente el modelo con un pequeño número de conjuntos de imágenes de alta calidad, en lugar de entrenar a gran escala con cientos de miles de imágenes como antes. Esto ahorra potencia de cálculo y preserva el conocimiento y la capacidad de "aprendizaje contextual" del modelo original.

El modelo IC-LoRA resultante es muy simple. No requiere ninguna modificación del modelo de texto a imagen original; solo necesita ajustar una pequeña cantidad de datos de entrenamiento según la tarea específica.

Por ejemplo, si desea que Stable Diffusion aprenda a generar imágenes de estilo cómic, solo necesita entrenar el modelo IC-LoRA con unas pocas imágenes de cómic, y podrá generar los cómics que desee. Es realmente "intuitivo".

image.png

Indicación: "Este par de imágenes muestra una transformación de un retrato realista a una ilustración juguetona, capturando detalles y talento artístico; [IMAGEN1] una fotografía de una mujer con un sombrero de ala ancha y un vestido fluido de estilo bohemio, sosteniendo un bolso de cuero, parada en un mercado concurrido; [IMAGEN2] una versión ilustrada que exagera sus accesorios y características, con el vestido bohemio representado en vibrantes patrones y colores audaces, mientras que el fondo se simplifica en puestos de mercado abstractos, dando una sensación animada y enérgica a la escena."

Para hacer IC-LoRA aún más potente, los investigadores también agregaron la capacidad de generación de imágenes condicionales. En pocas palabras, se trata de generar nuevas imágenes a partir de imágenes existentes. Por ejemplo, generar imágenes con diferentes expresiones o posturas a partir de una foto de una persona, o generar imágenes con diferentes condiciones climáticas o iluminación a partir de una foto de paisaje.

Por ejemplo:

image.png

Indicación: "Este conjunto de cuatro imágenes captura momentos tranquilos de una anciana cuidando su jardín. [IMAGEN1] Ella está arrodillada junto a una cama de flores en plena floración, recortando suavemente un rosal con sus manos, y la suave luz de la mañana ilumina su cabello plateado; [IMAGEN2] Ella está parada frente a una regadera, con una expresión de calma y serenidad mientras cuida las plantas; [IMAGEN3] Un primer plano muestra su sonrisa satisfecha mientras mira una flor que está a punto de abrirse en su mano, con orgullo y alegría evidentes; [IMAGEN4] Ella está sentada en un pequeño banco tomando el té en su jardín, rodeada de los vibrantes colores de su arduo trabajo."

image.png

Indicación: "Este conjunto de dos imágenes ilustra el impacto transformador de una tormenta de arena en una escena deportiva; [IMAGEN1] En un campo verde exuberante, el foco de un equipo de fútbol americano es un jugador con el balón, fotografiado bajo una luz solar brillante, [IMAGEN2] cambia al mismo jugador envuelto en un dramático efecto de tormenta de arena y relámpagos, con polvo arremolinándose a su alrededor, creando un efecto de tormenta de arena violenta en un campo oscuro y sombrío."

Los resultados de las pruebas muestran que IC-LoRA ha logrado resultados de alta calidad en diversas tareas de generación de imágenes, ya sea generando retratos, diseños de fuentes, decoración del hogar, o generando storyboards de películas y efectos visuales. Lo domina todo.

La aparición de IC-LoRA es un avance trascendental en el campo de la generación de imágenes con IA. Reduce drásticamente el costo de entrenamiento de los modelos de IA, permitiendo que más personas participen en la creación con IA.

En el futuro, con el desarrollo continuo de IC-LoRA, tenemos razones para creer que la IA se convertirá en una herramienta de creación al alcance de todos, permitiendo que todos se conviertan en artistas.

Dirección del proyecto: https://ali-vilab.github.io/In-Context-LoRA-Page/