Recientemente, un equipo de investigación de la Academia de Inteligencia Artificial de Beijing presentó un nuevo modelo de generación de imágenes llamado OmniGen.

image.png

Un jugador versátil para la generación y edición de imágenes

A diferencia de las herramientas de generación de imágenes anteriores como Stable Diffusion, el mayor punto a destacar de OmniGen es que ya no se centra en una sola tarea, sino que posee múltiples capacidades:

Puede manejar múltiples tareas de generación de imágenes en un marco unificado, incluyendo la generación de imágenes a partir de texto y la edición de imágenes; en definitiva, es un jugador todoterreno.

Esto significa que los usuarios solo necesitan proporcionar indicaciones sencillas para controlar la generación y edición detallada de imágenes, sin necesidad de usar complementos como ControlNet o IP-Adapter para ajustar los detalles de la imagen.

Aquí, AIbase proporciona un ejemplo detallado de una sugerencia para una foto creativa con una cámara antigua. El resultado general muestra un gran nivel de detalle, como se puede apreciar a continuación:

image.png

Indicación: Una cámara vintage colocada en el suelo, expulsando una nube giratoria de fotografías al estilo Polaroid al aire. Las fotos, que muestran paisajes, vida silvestre y escenas de viajes, parecen desafiar la gravedad, flotando hacia arriba en un vórtice de movimiento. La cámara emite una luz brillante y humeante desde su interior, realzando la atmósfera mágica y surrealista. El fondo oscuro contrasta con las fotos y la cámara iluminadas, creando una escena onírica y nostálgica llena de colores vibrantes y movimiento dinámico. Se ven fotos dispersas en el suelo, contribuyendo aún más a la idea de una explosión de recuerdos capturados.

A continuación, se muestran tres ejemplos oficiales: al subir dos imágenes e introducir las indicaciones correspondientes, se pueden fusionar en una sola escena.

image.png

La arquitectura de OmniGen es muy simplificada. A diferencia de los modelos de generación de imágenes anteriores, ya no necesita un codificador de texto adicional o un flujo de trabajo complejo. Con solo introducir las condiciones, OmniGen puede generar imágenes de manera eficiente, mejorando enormemente la experiencia del usuario. Combina un autocodificador variacional y un modelo Transformer preentrenado para procesar simultáneamente entradas de imagen y texto en un solo modelo, reduciendo la complejidad innecesaria.

Para mejorar el efecto de la generación de imágenes, OmniGen también utiliza un método de entrenamiento de flujo corrector. Este método, mediante la regresión directa de la velocidad objetivo, permite un control más preciso de la generación de imágenes. Además, su estrategia de entrenamiento progresivo permite que el modelo adquiera gradualmente las técnicas de generación, desde baja resolución hasta alta resolución, con resultados excelentes.

OmniGen se compara favorablemente con modelos avanzados en la generación de imágenes

Según se informa, el conjunto de datos de entrenamiento de OmniGen es también muy amplio y diverso, abarcando diversas tareas de generación de imágenes. Para garantizar la capacidad del modelo en el procesamiento de múltiples tareas, los investigadores construyeron un conjunto de datos a gran escala llamado X2I, que incluye datos de múltiples tareas, como la generación de imágenes a partir de texto y la edición de imágenes. Esto permite a OmniGen aprender y transferir conocimientos eficazmente de diferentes tareas, mostrando nuevas capacidades de generación.

image.png

En varias pruebas, el rendimiento de OmniGen ha sido sorprendente. En la generación de imágenes a partir de texto, su rendimiento es comparable al de los modelos más avanzados del mercado. En la prueba de referencia GenEval, OmniGen solo utilizó 100 millones de imágenes para su entrenamiento, mientras que SD3 utilizó más de 1000 millones de imágenes.

Su capacidad de edición de imágenes también es excelente, pudiendo controlar con precisión la imagen de origen y las instrucciones de edición. Por ejemplo, en el conjunto de pruebas EMU-Edit, superó a modelos conocidos como InstructPix2Pix, e incluso es comparable al modelo EMU-Edit más avanzado actual.

En las tareas de generación impulsadas por el sujeto, OmniGen ha demostrado una capacidad de personalización excepcional, adecuada para la creación artística y el diseño publicitario, entre otros campos.

Enlace de prueba: https://huggingface.co/spaces/Shitao/OmniGen

Artículo: https://arxiv.org/html/2409.11340v1