Les modèles de génération d'images à partir de texte (T2I) basés sur l'intelligence artificielle (IA), tels que DALLE3 et Adobe Firefly3, affichent des capacités de génération exceptionnelles et un potentiel illimité dans les applications réelles. Cependant, ces modèles possèdent généralement des dizaines de milliards de paramètres, nécessitant une mémoire importante, ce qui pose un défi majeur pour leur déploiement sur des plateformes aux ressources limitées, comme les appareils mobiles.

Pour résoudre ces problèmes, des chercheurs de ByteDance et du POSTECH ont exploré des techniques de quantification extrêmement basse précision pour les modèles T2I. Parmi les nombreux modèles avancés, FLUX.1-dev a été choisi comme cible de recherche en raison de sa disponibilité publique et de ses performances exceptionnelles.

Les chercheurs ont compressé les poids du transformateur visuel du modèle FLUX en utilisant une méthode de quantification dite « 1,58 bit », ne conservant que trois valeurs : {-1, 0, +1}. Cette méthode de quantification ne nécessite pas d'accès aux données d'image et repose uniquement sur l'auto-supervision du modèle FLUX.1-dev. Contrairement à la méthode BitNet b1.58, cette approche ne consiste pas à entraîner un grand modèle linguistique à partir de zéro, mais plutôt à proposer une solution de quantification post-entraînement pour les modèles T2I.

image.png

Grâce à cette méthode, l'espace de stockage du modèle a été réduit de 7,7 fois, car les poids de 1,58 bit sont stockés en utilisant des entiers signés sur 2 bits, ce qui représente une compression par rapport à la précision de 16 bits. Pour améliorer encore l'efficacité de l'inférence, les chercheurs ont également développé un noyau personnalisé optimisé pour les calculs à faible précision. Ce noyau a permis de réduire la consommation de mémoire d'inférence de plus de 5,1 fois et d'améliorer la latence d'inférence.

Les évaluations sur les benchmarks GenEval et T2I Compbench montrent que FLUX à 1,58 bit maintient une qualité de génération comparable à celle du modèle FLUX en pleine précision, tout en améliorant considérablement l'efficacité de calcul.

Plus précisément, les chercheurs ont quantifié 99,5 % des paramètres du transformateur visuel du modèle FLUX (soit 11,9 milliards au total) en 1,58 bit, réduisant ainsi considérablement les besoins en stockage.

Les résultats expérimentaux montrent que les performances de FLUX à 1,58 bit sont comparables à celles du modèle FLUX d'origine sur les ensembles de données T2I CompBench et GenEval. En termes de vitesse d'inférence, FLUX à 1,58 bit présente des améliorations plus significatives sur les GPU peu performants (tels que L20 et A10).

image.png

En résumé, l'apparition de FLUX à 1,58 bit marque une avancée importante vers le déploiement pratique de modèles T2I de haute qualité sur des appareils aux ressources mémoire et de latence limitées.

Bien que FLUX à 1,58 bit présente encore certaines limitations en termes d'amélioration de la vitesse et de rendu des détails d'images haute résolution, son énorme potentiel pour améliorer l'efficacité des modèles et réduire la consommation de ressources devrait fournir de nouvelles pistes de recherche pour l'avenir.

Résumé des principales améliorations :

Compression du modèle : l'espace de stockage du modèle a été réduit de 7,7 fois.

Optimisation de la mémoire : la consommation de mémoire d'inférence a été réduite de plus de 5,1 fois.

Maintien des performances : sur les benchmarks GenEval et T2I Compbench, FLUX à 1,58 bit a maintenu des performances comparables à celles du modèle FLUX en pleine précision.

Pas besoin de données d'image : le processus de quantification ne nécessite pas d'accès aux données d'image et repose uniquement sur l'auto-supervision du modèle.

Noyau personnalisé : un noyau personnalisé optimisé pour les calculs à faible précision a été utilisé pour améliorer l'efficacité de l'inférence.

Page du projet : https://chenglin-yang.github.io/1.58bit.flux.github.io/

Adresse de l'article : https://arxiv.org/pdf/2412.18653

Adresse du modèle : https://huggingface.co/papers/2412.18653