LlamaGen, gemeinsam von Forschern der Universität Hongkong und ByteDance entwickelt, ist eine auf dem autoregressiven Modell Llama basierende Methode zur Bilderzeugung. Sie zeigt im Bereich der Bilderzeugung ein Potenzial, das über traditionelle Diffusionsmodelle hinausgeht.

Die Open-Source-Veröffentlichung von LlamaGen hat auf GitHub schnell fast 900 Sterne erhalten. Dieses Ergebnis beweist nicht nur die Wettbewerbsfähigkeit autoregressiver Modelle in der Bilderzeugung, sondern verleiht der Open-Source-Community auch neue Dynamik und Innovationskraft.

Im ImageNet-Testbenchmark übertraf LlamaGen Diffusionsmodelle wie LDM und DiT. Dieser Erfolg ist der gründlichen Analyse und Optimierung der Architektur des autoregressiven Modells durch das Forschungsteam zu verdanken. Durch das erneute Training des Image Tokenizers erzielten sie auf ImageNet und COCO bessere Ergebnisse als vorherige Tokenizer wie VQGAN, ViT-VQGAN und MaskGI.

image.png

Die technische Umsetzung von LlamaGen basiert auf einigen zentralen Designprinzipien: Bildkompression/Quantisierung, ein skalierbares Modell zur Bilderzeugung und qualitativ hochwertige Trainingsdaten. Das Forschungsteam verwendete eine ähnliche CNN-Architektur wie VQ-GAN, um kontinuierliche Bilder in diskrete Token umzuwandeln und die visuelle Qualität und Auflösung der Bilder in einem zweistufigen Trainingsprozess deutlich zu verbessern.

Projekt-Adresse: https://top.aibase.com/tool/llamagen

Online-Demo: https://huggingface.co/spaces/FoundationVision/LlamaGen

In der ersten Phase wurde das Modell auf einem 50-Millionen-Subset von LAION-COCO mit einer Bildauflösung von 256×256 trainiert. Das Forschungsteam wählte durch Filterung nach effektiven Bild-URLs, ästhetischen Werten und Wasserzeichen einen hochwertigen Bilddatensatz aus. Die zweite Phase umfasste ein Feintuning auf einer internen Bilddatenbank mit 10 Millionen Bildern hoher ästhetischer Qualität und einer Auflösung von 512×512, wodurch die visuelle Qualität der erzeugten Bilder weiter verbessert wurde.

Die Stärken von LlamaGen liegen in seinem hervorragenden Image Tokenizer und der Skalierbarkeit der Llama-Architektur. Bei der tatsächlichen Bilderzeugung zeigt LlamaGen eine hohe Wettbewerbsfähigkeit bei Kennzahlen wie FID, IS, Precision und Recall. Im Vergleich zu früheren autoregressiven Modellen schneidet LlamaGen bei allen Größenordnungen der Parameter hervorragend ab.

Obwohl LlamaGen bereits beachtliche Erfolge erzielt hat, weisen die Forscher darauf hin, dass sich LlamaGen derzeit noch im Stadium von Stable Diffusion v1 befindet. Zukünftige Verbesserungen umfassen höhere Auflösungen, mehr Aspektverhältnisse, höhere Steuerbarkeit und die Erzeugung von Videos.

Derzeit kann LlamaGen online getestet werden. Interessierte können den LlamaGen-Bereich auf Hugging Face besuchen und diese revolutionäre Technologie zur Bilderzeugung selbst ausprobieren. Darüber hinaus bietet die Open-Source-Veröffentlichung von LlamaGen Entwicklern und Forschern weltweit eine Plattform zur gemeinsamen Teilnahme und zum Beitrag.