Récemment, l'équipe de recherche de l'Académie d'intelligence artificielle de Beijing a lancé un nouveau modèle de génération d'images appelé OmniGen.
Un outil polyvalent de génération et d'édition d'images
Contrairement aux outils de génération d'images précédents tels que Stable Diffusion, le principal atout d'OmniGen est qu'il ne se limite pas à une seule tâche. Il possède de multiples capacités :
Il peut gérer plusieurs tâches de génération d'images dans un cadre unifié, notamment la génération d'images à partir de texte et l'édition d'images. On peut le considérer comme un outil polyvalent.
Cela signifie que les utilisateurs peuvent contrôler la génération et l'édition fine des images simplement en fournissant des invites simples, sans avoir besoin d'utiliser des plugins comme ControlNet ou IP-Adapter pour ajuster les détails !
Voici un exemple basé sur une invite détaillée pour créer une photo avec un appareil photo vintage ; le niveau de détail de la génération est impressionnant, comme illustré ci-dessous :
Invite : Un appareil photo vintage posé au sol, éjectant un nuage tourbillonnant de photographies style Polaroid dans l'air. Les photos, montrant des paysages, la faune et des scènes de voyage, semblent défier la gravité, flottant vers le haut dans un vortex de mouvement. L'appareil photo émet une lumière incandescente et fumante de l'intérieur, rehaussant l'atmosphère magique et surréaliste. L'arrière-plan sombre contraste avec les photos et l'appareil photo illuminés, créant une scène onirique et nostalgique remplie de couleurs vibrantes et de mouvements dynamiques. Des photos éparpillées sont visibles au sol, contribuant davantage à l'idée d'une explosion de souvenirs capturés.
Voici trois exemples officiels : en téléchargeant deux images et en saisissant les invites correspondantes, elles peuvent être fusionnées dans une seule scène.
L'architecture d'OmniGen est très simplifiée. Contrairement aux modèles de génération d'images précédents, il ne nécessite plus de codeur de texte supplémentaire ou de flux de travail fastidieux. Il suffit de fournir les conditions, OmniGen peut générer efficacement des images, améliorant considérablement l'expérience utilisateur. Il combine un auto-encodeur variationnel et un modèle Transformer pré-entraîné, permettant ainsi de traiter simultanément les entrées image et texte dans un seul modèle, réduisant ainsi la complexité inutile.
Pour améliorer la qualité des images générées, OmniGen utilise également une méthode d'entraînement par flux de correction. Cette méthode, en régression directe de la vitesse cible, permet un contrôle plus précis de la génération d'images. De plus, sa stratégie d'entraînement progressive permet au modèle de maîtriser progressivement les techniques de génération, de basse à haute résolution, avec des résultats exceptionnels.
OmniGen rivalise avec les modèles de pointe en matière de génération d'images
OmniGen a été entraîné sur un ensemble de données très vaste et diversifié, couvrant diverses tâches de génération d'images. Pour garantir les capacités du modèle en matière de traitement multitâches, les chercheurs ont créé un ensemble de données à grande échelle appelé X2I, qui contient des données de plusieurs tâches, telles que la génération d'images à partir de texte et l'édition d'images. Cela permet à OmniGen d'apprendre et de transférer efficacement les connaissances des différentes tâches, démontrant ainsi de nouvelles capacités de génération.
Lors de nombreux tests, les performances d'OmniGen ont été impressionnantes. En matière de génération d'images à partir de texte, il se montre comparable aux modèles les plus avancés du marché. Dans les tests de référence GenEval, OmniGen n'a utilisé que 100 millions d'images pour son entraînement, tandis que SD3 a utilisé plus d'un milliard d'images.
Ses capacités d'édition d'images sont également excellentes, permettant un contrôle précis de l'image source et des instructions d'édition. Par exemple, sur l'ensemble de tests EMU-Edit, il surpasse des modèles connus tels qu'InstructPix2Pix, et se montre même comparable au modèle EMU-Edit le plus avancé.
Dans les tâches de génération pilotées par le sujet, OmniGen a démontré des capacités de personnalisation exceptionnelles, le rendant adapté à la création artistique et à la conception publicitaire, entre autres.
Adresse d'essai : https://huggingface.co/spaces/Shitao/OmniGen
Article : https://arxiv.org/html/2409.11340v1