Dans le domaine de la génération d'images, la tâche de créer des images haute résolution et réalistes a toujours été confrontée à de multiples défis, notamment lors de la synthèse texte-image. Les méthodes de génération traditionnelles reposent principalement sur les modèles de diffusion et les cadres autorégressifs transformateurs (VAR).

Bien que ces modèles puissent produire des images de haute qualité, ils nécessitent d'énormes ressources de calcul, ce qui les rend peu adaptés aux applications en temps réel. Parallèlement, les modèles VAR sont sujets à une accumulation d'erreurs lors du traitement de marqueurs discrets, entraînant une perte de détails dans les images générées et affectant ainsi leur réalisme.

image.png

Pour surmonter ces limitations, l'équipe de recherche de ByteDance a présenté un nouveau cadre appelé « Infinity », conçu pour améliorer l'efficacité et la qualité de la synthèse texte-image.

Infinity utilise des marqueurs au niveau du bit au lieu des marqueurs traditionnels au niveau de l'index, permettant une représentation plus granulaire, ce qui réduit considérablement les erreurs de quantification et améliore le réalisme des images générées. De plus, ce cadre utilise un classifieur à vocabulaire infini (IVC), étendant le vocabulaire des marqueurs à 2^64, réduisant ainsi considérablement les besoins en mémoire et en calcul.

image.png

L'architecture Infinity se compose principalement de trois parties : un marqueur de quantification multi-échelle au niveau du bit, qui convertit les caractéristiques de l'image en marqueurs binaires avec un faible coût de calcul ; un modèle autorégressif basé sur un transformateur, qui prédit les résidus en fonction de l'invite textuelle et des sorties précédentes ; et un mécanisme d'autocorrection qui introduit des inversions de bits aléatoires pendant l'entraînement pour améliorer la robustesse du modèle aux erreurs. L'équipe de recherche a utilisé de grands ensembles de données tels que LAION et OpenImages pour l'entraînement, en augmentant progressivement la résolution des images, de 256×256 à 1024×1024, obtenant ainsi des progrès significatifs.

Après évaluation, Infinity a démontré d'excellentes performances sur des indicateurs clés, avec un score GenEval de 0. et une Fréchet Inception Distance (FID) réduite à 3,48, prouvant son amélioration en termes de vitesse et de qualité de génération. Infinity peut générer des images haute résolution de 1024×1024 en 0,8 seconde, démontrant son efficacité et sa fiabilité. Les images générées par le système sont non seulement visuellement réalistes et riches en détails, mais répondent également avec précision aux instructions textuelles complexes, obtenant un score élevé de préférence humaine.

Le lancement d'Infinity marque une nouvelle référence dans le domaine de la synthèse texte-image haute résolution. Grâce à une conception innovante, il résout les problèmes de scalabilité et de qualité des détails qui existaient depuis longtemps, stimulant ainsi le développement de l'IA générative.

Article : https://arxiv.org/abs/2412.04431

Points clés :

🌟 **Cadre innovant Infinity :** Le cadre Infinity, développé par ByteDance, améliore considérablement l'efficacité de la génération d'images haute résolution grâce à la tokenisation au niveau du bit et à un classifieur à vocabulaire infini.

⚡ **Performances exceptionnelles :** Infinity surpasse les modèles existants sur les indicateurs d'évaluation clés, capable de générer des images de haute qualité de 1024×1024 en 0,8 seconde.

🖼️ **Réalisme, détails et réactivité :** Les images générées sont non seulement visuellement réalistes, mais répondent également avec précision aux invites textuelles complexes, obtenant un score élevé de préférence humaine.