En la era digital actual, la tecnología de generación de imágenes está avanzando a un ritmo asombroso. Recientemente, un equipo de investigación de la Universidad Nacional de Singapur presentó un nuevo marco, OminiControl, diseñado para mejorar la flexibilidad y la eficiencia de la generación de imágenes. Este marco, al combinar condiciones de imagen y aprovechar al máximo los modelos de transformadores de difusión (Diffusion Transformer, DiT) ya entrenados, ofrece un control sin precedentes.
En pocas palabras, solo con proporcionar una imagen de origen, OminiControl puede integrar el tema de esa imagen en la imagen generada. Por ejemplo, si se carga la imagen de origen de la izquierda e introducimos el texto "un hombre-chip colocado al lado de un escritorio en un consultorio médico, con un estetoscopio en el escritorio", el resultado generado es bastante común, como se muestra a continuación:
El núcleo de OminiControl reside en su "mecanismo de reutilización de parámetros". Este mecanismo permite que el modelo DiT procese las condiciones de imagen de manera eficiente con parámetros adicionales mínimos. Esto significa que, en comparación con los métodos existentes, OminiControl solo necesita agregar del 0,1% al 0,1% de parámetros para lograr una funcionalidad potente. Además, puede manejar de forma unificada múltiples tareas de condiciones de imagen, como la generación basada en temas y la aplicación de condiciones de alineación espacial, como bordes o mapas de profundidad. Esta flexibilidad es especialmente útil para tareas de generación impulsadas por temas.
El equipo de investigación también destaca que OminiControl logra estas capacidades mediante el entrenamiento de las imágenes generadas, lo cual es especialmente importante para la generación impulsada por temas. Tras una evaluación exhaustiva, OminiControl superó significativamente a los modelos UNet y a los modelos DiT adaptados existentes en las tareas de generación impulsada por temas y generación con condiciones de alineación espacial. Este logro de investigación abre nuevas posibilidades en el ámbito creativo.
Para respaldar una investigación más amplia, el equipo también publicó un conjunto de datos de entrenamiento llamado Subjects200K, que contiene más de 200.000 imágenes con identidad consistente y proporciona una canalización eficiente de síntesis de datos. Este conjunto de datos proporcionará a los investigadores un valioso recurso para ayudarles a explorar aún más las tareas de generación consistente de temas.
El lanzamiento de OminiControl no solo mejora la eficiencia y los resultados de la generación de imágenes, sino que también ofrece más posibilidades para la creación artística. Con el continuo avance de la tecnología, la generación de imágenes del futuro será más inteligente y personalizada.
Prueba online: https://huggingface.co/spaces/Yuanshi/OminiControl
github: https://github.com/Yuanshi9815/OminiControl
Artículo: https://arxiv.org/html/2411.15098v2
Puntos clave:
🌟 OminiControl, a través de su mecanismo de reutilización de parámetros, hace que el control de la generación de imágenes sea más potente y eficiente.
🎨 Este marco puede manejar simultáneamente múltiples tareas de condiciones de imagen, como bordes y mapas de profundidad, adaptándose a diferentes necesidades creativas.
📸 El equipo publicó el conjunto de datos Subjects200K, con más de 200.000 imágenes, para impulsar la investigación y la exploración.