UniTok es una innovadora tecnología de tokenización visual diseñada para cerrar la brecha entre la generación y la comprensión visual. Mediante la técnica de cuantificación de múltiples codebooks, mejora significativamente la capacidad de representación de los tokenizadores discretos, permitiéndoles capturar detalles visuales y información semántica más ricos. Esta tecnología supera los cuellos de botella de los tokenizadores tradicionales en el proceso de entrenamiento, ofreciendo una solución eficiente y unificada para tareas de generación y comprensión visual. UniTok destaca en tareas de generación y comprensión de imágenes, como la obtención de una mejora significativa en la precisión de cero disparos en ImageNet. Las principales ventajas de esta tecnología incluyen su eficiencia, flexibilidad y su potente soporte para tareas multimodales, abriendo nuevas posibilidades en el campo de la generación y comprensión visual.