À l'ère numérique actuelle, les techniques de génération d'images progressent à un rythme étonnant. Récemment, une équipe de chercheurs de l'Université nationale de Singapour a proposé un nouveau framework, OminiControl, visant à améliorer la flexibilité et l'efficacité de la génération d'images. Ce framework, en combinant des conditions d'image et en tirant pleinement parti des modèles de transformateurs de diffusion (Diffusion Transformer, ou DiT) déjà entraînés, offre un contrôle sans précédent.

En termes simples, il suffit de fournir une image source ; OminiControl permet d'intégrer le sujet de cette image source dans l'image générée. Par exemple, si l'on télécharge l'image source de gauche et que l'on entre l'invite « un homme-puce placé à côté d'un bureau dans un cabinet médical, avec un stéthoscope sur le bureau », le résultat de la génération est assez moyen, comme illustré ci-dessous :

image.png

Le cœur d'OminiControl réside dans son « mécanisme de réutilisation des paramètres ». Ce mécanisme permet au modèle DiT de traiter efficacement les conditions d'image avec un nombre minimal de paramètres supplémentaires. Cela signifie qu'OminiControl n'a besoin que de 0,1 % à 0,1 % de paramètres supplémentaires pour réaliser des fonctionnalités puissantes, contrairement aux méthodes existantes. De plus, il peut traiter de manière unifiée plusieurs tâches de conditionnement d'images, telles que la génération basée sur le sujet et l'application de conditions d'alignement spatial, comme les bords ou les cartes de profondeur. Cette flexibilité est particulièrement utile pour les tâches de génération pilotées par le sujet.

image.png

L'équipe de recherche souligne également qu'OminiControl réalise ces capacités en entraînant les images générées, ce qui est particulièrement important pour la génération pilotée par le sujet. Après une évaluation approfondie, OminiControl surpasse de manière significative les modèles UNet et les modèles DiT adaptés existants dans les tâches de génération pilotée par le sujet et de génération conditionnelle d'alignement spatial. Cette avancée ouvre de nouvelles perspectives dans le domaine de la création.

image.png

Pour soutenir une recherche plus large, l'équipe a également publié un jeu de données d'entraînement appelé Subjects200K, contenant plus de 200 000 images à identité cohérente, et fournit un pipeline de synthèse de données efficace. Ce jeu de données offrira aux chercheurs une ressource précieuse pour explorer plus avant les tâches de génération cohérente de sujets.

Le lancement d'OminiControl améliore non seulement l'efficacité et les résultats de la génération d'images, mais offre également davantage de possibilités pour la création artistique. Avec les progrès constants de la technologie, la génération d'images futures sera plus intelligente et personnalisée.

Expérience en ligne : https://huggingface.co/spaces/Yuanshi/OminiControl

GitHub : https://github.com/Yuanshi9815/OminiControl

Article : https://arxiv.org/html/2411.15098v2

Points clés :

🌟 OminiControl, grâce à son mécanisme de réutilisation des paramètres, renforce le contrôle et l'efficacité de la génération d'images.

🎨 Ce framework peut traiter simultanément plusieurs tâches de conditionnement d'images, telles que les bords et les cartes de profondeur, pour répondre à différents besoins créatifs.

📸 L'équipe a publié le jeu de données Subjects200K, contenant plus de 200 000 images, pour soutenir la recherche et l'exploration.