El nuevo sistema de edición de imágenes con IA, PhotoDoodle, desarrollado conjuntamente por ByteDance y equipos de investigación de universidades de China y Singapur, está redefiniendo nuestra comprensión de la creación de imágenes. Esta innovadora tecnología, basada en el modelo Flux.1, puede aprender estilos artísticos a partir de un pequeño número de ejemplos y ejecutar instrucciones de edición específicas con precisión, abriendo nuevas posibilidades para la expresión creativa.
Basado en Flux.1
El núcleo de PhotoDoodle es el sistema OmniEditor, desarrollado inicialmente por el equipo de investigación. Utiliza ingeniosamente la tecnología LoRA (Low-Rank Adaptation) para mejorar el modelo de generación de imágenes Flux.1 de la empresa alemana Black Forest Labs. Este método no requiere remodelar completamente los pesos del modelo original, sino que agrega pequeñas matrices especializadas para lograr ajustes conceptuales mínimos hasta transformaciones de estilo completas.
Posteriormente, los investigadores entrenaron OmniEditor utilizando una variante llamada EditLoRA para replicar estilos artísticos únicos. A través de pares de imágenes cuidadosamente seleccionadas, creadas en colaboración con artistas, el sistema aprendió las sutilezas de cada estilo artístico.
PhotoDoodle agrega elementos interesantes como monstruos, efectos mágicos e ilustraciones decorativas mientras conserva la composición de la imagen original. | Imagen: Huang et al.
"Clonación de codificación de posición": Manteniendo la armonía visual
La innovación más destacada de PhotoDoodle es la técnica de "clonación de codificación de posición". Esta tecnología permite a la IA recordar la posición exacta de cada píxel en la imagen original, manteniendo así la integridad de la composición al agregar nuevos elementos y asegurando que estos se integren de forma natural en el fondo.
Esto resuelve un punto crítico de las IA tradicionales de edición de imágenes: o bien cambian el estilo de toda la imagen, o solo pueden editar áreas locales, dificultando la integración de nuevos elementos decorativos mientras se mantiene la perspectiva y el fondo originales. PhotoDoodle logra este avance sin necesidad de entrenamiento adicional con parámetros, lo que aumenta considerablemente la eficiencia del procesamiento.
PhotoDoodle utiliza varios estilos artísticos para transformar fotos cotidianas, desde adorables monstruos de dibujos animados hasta líneas y efectos de color dibujados a mano. | Imagen: Huang et al.
Perspectivas sobre el entrenamiento con una sola imagen
En las pruebas prácticas, PhotoDoodle manejó fácilmente instrucciones complejas, desde "blanquear un poco al gato" hasta "agregar un monstruo rosa trepando por un edificio". En comparación con las tecnologías existentes, su rendimiento es excelente en pruebas de referencia como la similitud entre la imagen y la descripción de texto, superando con creces a productos similares tanto en ediciones específicas como en cambios globales de imagen.
La comparación de PhotoDoodle con los sistemas de edición de imágenes con IA existentes muestra claramente las diferencias en la calidad de ejecución de indicaciones específicas. | Imagen: Huang et al.
Actualmente, PhotoDoodle necesita decenas de pares de imágenes y miles de pasos de entrenamiento para dominar un nuevo estilo. El equipo de investigación está trabajando en métodos de entrenamiento con una sola imagen más eficientes y ha publicado un conjunto de datos que contiene seis estilos artísticos diferentes y más de 300 pares de imágenes. El código también se ha publicado en GitHub como código abierto, proporcionando una base sólida para futuras investigaciones.
Dirección:https://github.com/showlab/PhotoDoodle