Récemment, le développement des modèles génératifs a mis en évidence le rôle crucial de la tokenisation d'images dans la synthèse efficace d'images haute résolution. La tokenisation d'images convertit les images en représentations latentes, réduisant les besoins de calcul et améliorant l'efficacité et l'efficience du processus de génération, contrairement au traitement direct des pixels. Cependant, les méthodes précédentes (comme VQGAN) utilisent généralement une grille latente 2D fixe pour la tokenisation, ce qui pose des défis pour gérer la redondance inhérente aux images, les régions adjacentes présentant souvent des similarités.

Pour surmonter ce problème, les chercheurs ont introduit TiTok, un framework de tokenisation unidimensionnel basé sur Transformer. Cette approche innovante tokenise les images en une séquence latente unidimensionnelle. TiTok est un tokeniseur unidimensionnel compact qui peut représenter une image 256×256 avec aussi peu que 32 tokens discrets. Par conséquent, il accélère considérablement le processus d'échantillonnage (par exemple, 410 fois plus rapide que DiT-XL/2), tout en obtenant une qualité de génération compétitive.

image.png

TiTok fournit une représentation latente plus compacte, produisant une représentation plus efficace et efficiente que les techniques traditionnelles. Par exemple, une image 256×256×3 peut être réduite à seulement 32 tokens discrets, beaucoup moins que les 256 ou 1024 tokens obtenus par les méthodes précédentes. Malgré sa compacité, TiTok atteint des performances comparables aux méthodes de pointe.

image.png

Plus précisément, en utilisant le même framework de générateur, TiTok a atteint un gFID de 1,97 sur le benchmark ImageNet256×256, surpassant nettement le benchmark MaskGIT de 4,21. L'avantage de TiTok devient encore plus significatif lors du traitement d'images à plus haute résolution.

Sur le benchmark ImageNet512×512, TiTok surpasse non seulement le modèle de diffusion de pointe DiT-XL/2 (gFID 2,74 contre 3,04), mais réduit également le nombre de tokens d'image de 64 fois, et accélère la génération de 410 fois. La meilleure variante de TiTok surpasse considérablement DiT-XL/2 (gFID 2,13 contre 3,04) tout en générant des échantillons de haute qualité, avec une vitesse de génération augmentée de 74 fois.

Les applications de TiTok couvrent divers domaines nécessitant une synthèse efficace d'images haute résolution, tels que la vision par ordinateur, le traitement d'images et la création artistique.