Kürzlich hat die Entwicklung von generativen Modellen die entscheidende Rolle der Bildtokenisierung bei der effizienten Synthese von hochauflösenden Bildern hervorgehoben. Bildtokenisierung wandelt Bilder in latente Darstellungen um, was den Rechenaufwand im Vergleich zur direkten Pixelverarbeitung reduziert und die Effektivität und Effizienz des Generierungsprozesses verbessert. Bisherige Methoden (wie VQGAN) verwenden jedoch in der Regel ein festes 2D-latentes Gitter für die Tokenisierung und stehen vor der Herausforderung, die inhärente Redundanz in Bildern zu bewältigen, wobei benachbarte Bereiche oft Ähnlichkeiten aufweisen.
Um dieses Problem zu lösen, haben Forscher den Transformer-basierten eindimensionalen Tokenisierungsrahmen TiTok eingeführt. Dieser innovative Ansatz tokenisiert Bilder als eindimensionale latente Sequenz. TiTok ist ein kompakter eindimensionaler Tokenisierer, der ein 256×256-Bild mit nur 32 diskreten Token darstellen kann. Daher beschleunigt er den Sampling-Prozess erheblich (z. B. 410× schneller als DiT-XL/2) und erzielt gleichzeitig eine wettbewerbsfähige Generierungsqualität.
TiTok bietet eine kompaktere latente Darstellung und erzeugt im Vergleich zu traditionellen Techniken eine effizientere und effektivere Darstellung. So kann beispielsweise ein 256×256×3-Bild auf nur 32 diskrete Token reduziert werden, deutlich weniger als die 256 oder 1024 Token, die mit früheren Methoden erzielt wurden. Trotz seiner Kompaktheit erreicht TiTok eine mit den besten Methoden vergleichbare Leistung.
Konkret erreicht TiTok mit dem gleichen Generator-Framework im ImageNet 256×256-Benchmark einen gFID von 1,97 und übertrifft damit deutlich den MaskGIT-Benchmark von 4,21. Der Vorteil von TiTok wird bei der Verarbeitung von Bildern mit höherer Auflösung noch deutlicher.
Im ImageNet 512×512-Benchmark übertrifft TiTok nicht nur das hochmoderne Diffusionsmodell DiT-XL/2 (gFID 2,74 vs. 3,04), sondern reduziert auch die Bildtoken um das 64-fache und erhöht die Generierungsgeschwindigkeit um das 410-fache. Die beste Variante von TiTok übertrifft DiT-XL/2 (gFID 2,13 vs. 3,04) bei gleichzeitiger Erzeugung qualitativ hochwertiger Samples deutlich und erhöht die Generierungsgeschwindigkeit um das 74-fache.
TiTok findet Anwendung in verschiedenen Bereichen, in denen eine effiziente Synthese von hochauflösenden Bildern erforderlich ist, wie z. B. in der Computer Vision, der Bildverarbeitung und der Kunstgestaltung.