近期,生成模型的发展突显了图像标记化在高分辨率图像高效合成中的关键作用。图像token化将图像转换为潜在表示,相比直接处理像素,降低了计算需求,增强了生成过程的有效性和效率。然而,先前的方法(如 VQGAN)通常利用固定的2D 潜在网格进行标记化,面临着管理图像中固有冗余的挑战,其中相邻区域经常呈现相似性。

为了克服这一问题,研究人员引入了基于 Transformer 的一维标记化框架 TiTok,这种创新方法将图像标记化为一维潜在序列。TiTok 是一个紧凑的一维标记器,可以用少至32个离散token来表示256×256图像。因此,它大大加快了采样过程(例如,比 DiT-XL/2快410×),同时获得具有竞争力的生成质量。

image.png

TiTok 提供了更紧凑的潜在表示,比传统技术产生了更加高效和有效的表示。例如,一个256×256×3的图像可以仅缩减为32个离散token,远远少于先前方法得到的256或1024个token。尽管紧凑,TiTok 实现了与最先进方法相媲美的性能。

image.png

具体来说,使用相同的生成器框架,TiTok 在 ImageNet256×256基准测试中达到了1.97的 gFID,明显优于 MaskGIT 基准4.21。TiTok 的优势在处理更高分辨率图像时变得更加显著。

在 ImageNet512×512基准测试中,TiTok 不仅胜过最先进的扩散模型 DiT-XL/2(gFID2.74vs.3.04),还将图像token减少了64倍,生成速度提高了410倍。TiTok最佳的变体在仍然生成高质量样本的情况下显著超越了 DiT-XL/2(gFID2.13vs.3.04),生成速度提高了74倍。

TiTok 的应用场景涵盖了各种需要高效合成高分辨率图像的领域,如计算机视觉、图像处理、艺术创作等。