L'Institut de recherche sur l'intelligence artificielle de Beijing (BAAI) a récemment annoncé le lancement d'OmniGen, un nouveau modèle de génération d'images polyvalent, marquant une avancée majeure dans le domaine de la génération d'images. OmniGen se distingue par son unification, sa simplicité et sa capacité de transfert de connaissances inter-tâches. Il est capable de gérer plusieurs tâches de génération d'images au sein d'un seul cadre, notamment la génération d'images à partir de texte, l'édition d'images, la génération pilotée par des thèmes et la génération conditionnelle visuelle.

微信截图_20241029103628.png

Le principal avantage d'OmniGen réside dans son architecture simplifiée et son utilisation conviviale. Les utilisateurs peuvent réaliser des tâches complexes de génération d'images avec des instructions simples, sans plugins supplémentaires ni étapes de traitement complexes. Cet apprentissage au format unifié permet à OmniGen de transférer efficacement les connaissances entre différentes tâches, de gérer des tâches et des domaines inconnus et de présenter des fonctionnalités innovantes.

Les capacités d'OmniGen ne se limitent pas à ce qui précède ; il inclut également des capacités de traitement d'images de base telles que le débruitage et l'extraction des contours. Les poids et le code du modèle ont été rendus open source afin que les utilisateurs puissent explorer davantage les capacités d'OmniGen et l'ajuster selon leurs besoins. L'institut de recherche de Beijing a créé X2I, un ensemble de données de génération d'images unifié, à grande échelle et diversifié, contenant environ 100 millions d'images. Il sera prochainement open source pour stimuler le développement du domaine de la génération d'images universelle.

Liens utiles :

Article : https://arxiv.org/pdf/2409.11340

Code : https://github.com/VectorSpaceLab/OmniGen

Démo : https://huggingface.co/spaces/Shitao/OmniGen