Recientemente, el desarrollo de modelos generativos ha destacado el papel crucial de la tokenización de imágenes en la síntesis eficiente de imágenes de alta resolución. La tokenización de imágenes convierte las imágenes en representaciones latentes, lo que reduce la demanda computacional y aumenta la eficacia y eficiencia del proceso de generación en comparación con el procesamiento directo de píxeles. Sin embargo, los métodos anteriores (como VQGAN) suelen utilizar una cuadrícula latente 2D fija para la tokenización, lo que supone un reto para gestionar la redundancia inherente en las imágenes, donde las áreas adyacentes suelen mostrar similitudes.
Para superar este problema, los investigadores han introducido TiTok, un marco de tokenización unidimensional basado en Transformer. Este método innovador tokeniza las imágenes como una secuencia latente unidimensional. TiTok es un tokenizador unidimensional compacto que puede representar imágenes de 256×256 con tan solo 32 tokens discretos. Por lo tanto, acelera enormemente el proceso de muestreo (por ejemplo, 410 veces más rápido que DiT-XL/2), al tiempo que obtiene una calidad de generación competitiva.
TiTok proporciona una representación latente más compacta, lo que resulta en una representación más eficiente y efectiva que las técnicas tradicionales. Por ejemplo, una imagen de 256×256×3 se puede reducir a solo 32 tokens discretos, mucho menos que los 256 o 1024 tokens obtenidos por métodos anteriores. A pesar de su compacidad, TiTok logra un rendimiento comparable al de los métodos más avanzados.
En concreto, utilizando el mismo marco generador, TiTok alcanzó un gFID de 1,97 en el benchmark ImageNet256×256, superando significativamente el benchmark de MaskGIT de 4,21. La ventaja de TiTok se hace aún más evidente al procesar imágenes de mayor resolución.
En el benchmark ImageNet512×512, TiTok no solo supera al modelo de difusión de vanguardia DiT-XL/2 (gFID 2,74 frente a 3,04), sino que también reduce los tokens de imagen en 64 veces y aumenta la velocidad de generación en 410 veces. La mejor variante de TiTok supera significativamente a DiT-XL/2 (gFID 2,13 frente a 3,04) mientras sigue generando muestras de alta calidad, con una velocidad de generación 74 veces mayor.
Las aplicaciones de TiTok abarcan diversas áreas que requieren la síntesis eficiente de imágenes de alta resolución, como la visión por computadora, el procesamiento de imágenes y la creación artística.