Dans le domaine de l'intelligence artificielle, Infinity, le dernier modèle issu de l'équipe technique de monétisation de ByteDance, s'impose comme le nouveau leader dans le domaine de la génération d'images à partir de texte auto-régressif, grâce à ses performances exceptionnelles et à ses innovations technologiques. Ce nouveau modèle open-source surpasse non seulement Stable Diffusion 3 en termes de qualité de génération d'images, mais affiche également un avantage significatif en termes de vitesse d'inférence.
L'innovation principale d'Infinity réside dans l'utilisation d'un cadre auto-régressif de jetons binaires (Bitwise Tokens). Ce cadre, en prédisant des « Bitwise Tokens » à grain fin constitués de +1 ou -1 pour la résolution de niveau supérieur, améliore considérablement la capacité du modèle à capturer les signaux haute fréquence, générant ainsi des images plus riches en détails. De plus, Infinity étend son vocabulaire à l'infini, augmentant considérablement l'espace de représentation de l'Image tokenizer et améliorant ainsi les performances maximales de la génération d'images à partir de texte auto-régressif.
En termes de comparaison de performances, Infinity se distingue parmi les méthodes auto-régressives, surpassant largement HART, LlamaGen, Emu3, et obtient un taux de victoire proche de 90 % face au modèle HART lors de tests humains. Simultanément, Infinity a battu des modèles de diffusion SOTA tels que PixArt-Sigma, SD-XL et SD3-Medium avec des taux de victoire de 75 %, 80 % et 65 % respectivement, démontrant ainsi son avantage parmi les modèles de même taille.
Une autre caractéristique importante d'Infinity est son excellente capacité d'extensibilité. Avec l'augmentation de la taille du modèle et des ressources de formation, la perte de l'ensemble de validation diminue régulièrement et la précision de l'ensemble de validation augmente de manière stable. De plus, Infinity propose une technique d'autocorrection binaire, améliorant la capacité d'autocorrection du modèle et atténuant les problèmes d'erreur cumulative lors de l'inférence auto-réressive.
En termes de vitesse d'inférence, Infinity hérite des avantages de vitesse de VAR. Le modèle 2B génère une image de 1024x1024 en seulement 0,8 seconde, soit 3 fois plus vite que SD3-Medium de même taille et 14 fois plus vite que Flux Dev 12B. Le modèle 8B est 7 fois plus rapide que SD3.5 de même taille, et le modèle 20B génère une image de 1024x1024 en 3 secondes, soit près de 4 fois plus vite que Flux Dev 12B.
Actuellement, le code d'entraînement et d'inférence, la démo et les poids du modèle Infinity sont disponibles sur le dépôt GitHub, avec également une version de démonstration en ligne permettant aux utilisateurs de tester et d'évaluer facilement les performances du modèle.
Page du projet : https://foundationvision.github.io/infinity.project/