Ein Forschungsteam der Universität Hongkong und ByteDance hat kürzlich LlamaGen vorgestellt, eine innovative Technologie, die das Paradigma der „nächstes Token vorhersagen“ großer Sprachmodelle auf die Bilderzeugung anwendet. Durch die Neubewertung des Designs von Bild-Tokenisierern, der Skalierbarkeit von Bilderzeugungsmodellen und der Qualität der Trainingsdaten konnten sie ein neuartiges Bilderzeugungsmodell namens LlamaGen entwickeln.

image.png

Produktzugang:https://top.aibase.com/tool/llamagen

LlamaGen ist eine bahnbrechende Innovation im Bereich der traditionellen Bilderzeugung. Es beweist, dass selbst ohne visuelle Vorinformationen gewöhnliche autoregressive Modelle eine führende Leistung in der Bilderzeugung erzielen können, sofern sie angemessen skaliert werden. LlamaGen, ein autoregressives Modell basierend auf der LLaMA-Architektur, verwendet – anders als Diffusionsmodelle – den Output des Transformers (nächstes Token) als Input für die Vorhersage des übernächsten Tokens. Diese Entdeckung eröffnet neue Möglichkeiten und Inspirationen im Bereich der Bilderzeugung und bietet neue Ansätze für zukünftige Forschung.

Merkmale von LlamaGen:

Bild-Tokenisierer: Einführung eines Bild-Tokenisierers mit 16-facher Downsampling-Rate, einer Rekonstruktionsqualität von 0,94 und einer Codebuch-Auslastung von 97%, der im ImageNet-Benchmark hervorragende Ergebnisse erzielt.

image.png

Klassenbedingtes Bilderzeugungsmodell: Einführung einer Reihe von klassenbedingten Bilderzeugungsmodellen mit 111M bis 3,1B Parametern, die im ImageNet256×256-Benchmark einen FID von 2,18 erreichen und damit gängige Diffusionsmodelle übertreffen.

image.png

image.png

Textbedingtes Bilderzeugungsmodell: Einführung eines textbedingten Bilderzeugungsmodells mit 775M Parametern, das mit zweistufiger Training auf LAION-COCO trainiert wurde und hochwertige ästhetische Bilder mit exzellenter visueller Qualität und Text-Ausrichtung erzeugt.

image.png

Service-Framework vllm: Nachweis der Effektivität des LLM-Service-Frameworks zur Optimierung der Inferenzgeschwindigkeit von Bilderzeugungsmodellen mit einer Beschleunigung um 326% bis 414%.

image.png

Das Projekt umfasst zwei Bild-Tokenisierer, sieben klassenbedingte und zwei textbedingte Generierungsmodelle sowie eine Online-Demo und ein hochdurchsatzfähiges Service-Framework. Diese Modelle und Tools bieten Entwicklern und Forschern wertvolle Ressourcen und Werkzeuge zum besseren Verständnis und zur Anwendung der LlamaGen-Technologie.