En el mágico mundo de la creación digital, imagine que puede arrastrar y soltar fácilmente el sujeto de una imagen a un fondo completamente diferente, haciendo que el sujeto se integre perfectamente en el nuevo entorno, conservando su personalidad y fusionándose sin problemas con el estilo del nuevo fondo. Suena a magia, pero esa es la magia de la tecnología Magic Insert.

Con el rápido desarrollo de los grandes modelos de texto a imagen, la generación de imágenes de alta calidad ya no es un problema. Pero para que estos modelos sean realmente útiles, la controlabilidad se vuelve crucial. Las necesidades de los usuarios son muy variadas; desean interactuar con estos modelos de diferentes maneras según sus casos de uso específicos. Aunque ya se han logrado avances en la controlabilidad de estas redes, sigue siendo un desafío cómo aprovechar al máximo el potencial de estos poderosos modelos.

La tecnología Magic Insert surge para resolver no solo el problema de arrastrar y soltar con percepción de estilo, sino que también muestra ventajas significativas sobre los métodos tradicionales (como las técnicas de reparación). Esta tecnología se logra mediante la solución de dos subproblemas: la personalización con percepción de estilo y la inserción realista de objetos en imágenes estilizadas.

QQ截图20240715145222.jpg

Puntos destacados de la tecnología:

  • Personalización con percepción de estilo: Magic Insert primero usa LoRA y etiquetas de texto aprendidas para ajustar finamente un modelo de difusión de texto a imagen preentrenado y lo fusiona con la representación CLIP del estilo objetivo.

  • Inserción de objetos: Se utiliza la técnica de Adaptación de Dominio con Bootstrap para insertar objetos realistas a nivel fotográfico de un dominio específico en el modelo adaptado a dominios de estilos artísticos diversos.

  • Flexibilidad: El método permite elegir entre el grado de estilización y la fidelidad de los detalles del tema original, e incluso se puede introducir más novedad en la generación.

Los investigadores mostraron los resultados experimentales de Magic Insert en temas y fondos de diversos estilos, demostrando su eficacia y diversidad. Desde estilos fotorrealistas hasta dibujos animados y pinturas, Magic Insert puede extraer con éxito el tema de la imagen de origen e integrarlo en el fondo objetivo, adaptándose al estilo de la imagen objetivo.

QQ截图20240715145232.jpg

Conjunto de datos SubjectPlop:

Para promover la evaluación del problema de arrastrar y soltar con percepción de estilo y los avances futuros, los investigadores presentan y ponen a disposición pública el conjunto de datos SubjectPlop. Este conjunto de datos contiene temas diversos generados con DALL-E3 y fondos generados con el modelo de código abierto SDXL, que abarcan una variedad de estilos, desde 3D, dibujos animados y anime hasta realismo y fotografía.

A través de estudios de usuarios, los investigadores descubrieron que los usuarios muestran una clara preferencia por los resultados generados por Magic Insert, mostrando un mejor rendimiento en la retención de la identidad del tema, la fidelidad del estilo y la inserción realista en comparación con los métodos de referencia.

Magic Insert tiene como objetivo mejorar la creatividad y la autoexpresión mediante la generación de imágenes intuitiva. Sin embargo, también hereda problemas comunes de métodos similares, como la alteración de características personales sensibles y la reproducción de sesgos en los modelos preentrenados. Los investigadores destacan que, con la aparición de herramientas más potentes, es crucial desarrollar medidas de seguridad y estrategias de mitigación para abordar las posibles implicaciones sociales.

La tecnología Magic Insert presenta nuevos desafíos en el campo de la generación de imágenes, es decir, la inserción intuitiva de temas en imágenes objetivo mientras se mantiene la coherencia del estilo. Este trabajo, mediante la propuesta del problema de arrastrar y soltar con percepción de estilo, el método Magic Insert y el conjunto de datos SubjectPlop, proporciona una base para el desarrollo y la exploración de este emocionante nuevo campo de la generación de imágenes.

Prueba online: https://magicinsert.github.io/demo.html

Dirección del proyecto: https://top.aibase.com/tool/magic-insert

Dirección del artículo: https://arxiv.org/pdf/2407.02489