Recentemente, o desenvolvimento de modelos generativos destacou o papel crucial da tokenização de imagens na síntese eficiente de imagens de alta resolução. A tokenização de imagens converte imagens em representações latentes, reduzindo a demanda computacional e aumentando a eficácia e a eficiência do processo de geração, em comparação com o processamento direto de pixels. No entanto, métodos anteriores (como o VQGAN) geralmente utilizam uma grade latente 2D fixa para tokenização, enfrentando o desafio de gerenciar a redundância inerente às imagens, onde regiões adjacentes frequentemente exibem semelhanças.
Para superar esse problema, os pesquisadores introduziram o TiTok, uma estrutura de tokenização unidimensional baseada em Transformer. Este método inovador tokeniza imagens em uma sequência latente unidimensional. O TiTok é um tokenizador unidimensional compacto que pode representar imagens de 256×256 com apenas 32 tokens discretos. Portanto, ele acelera significativamente o processo de amostragem (por exemplo, 410 vezes mais rápido que o DiT-XL/2), ao mesmo tempo em que obtém uma qualidade de geração competitiva.
O TiTok fornece uma representação latente mais compacta, resultando em uma representação mais eficiente e eficaz do que as técnicas tradicionais. Por exemplo, uma imagem de 256×256×3 pode ser reduzida para apenas 32 tokens discretos, muito menos do que os 256 ou 1024 tokens obtidos por métodos anteriores. Apesar de sua compacidade, o TiTok alcança um desempenho comparável aos métodos de ponta.
Especificamente, usando a mesma estrutura de gerador, o TiTok alcançou um gFID de 1,97 no benchmark ImageNet256×256, superando significativamente o benchmark MaskGIT de 4,21. A vantagem do TiTok torna-se ainda mais evidente ao lidar com imagens de resolução mais alta.
No benchmark ImageNet512×512, o TiTok não apenas superou o modelo de difusão de ponta DiT-XL/2 (gFID 2,74 vs. 3,04), mas também reduziu os tokens de imagem em 64 vezes e aumentou a velocidade de geração em 410 vezes. A melhor variante do TiTok superou significativamente o DiT-XL/2 (gFID 2,13 vs. 3,04), com aumento de velocidade de geração de 74 vezes, enquanto ainda gerava amostras de alta qualidade.
As aplicações do TiTok abrangem várias áreas que exigem síntese eficiente de imagens de alta resolução, como visão computacional, processamento de imagens e criação artística.