ELLA
Ein Diffusionsmodell-Adapter zur Verbesserung der semantischen Ausrichtung mithilfe von LLMs
Normales ProduktBildText-zu-BildSemantische Ausrichtung
ELLA (Efficient Large Language Model Adapter) ist eine leichtgewichtige Methode, um bestehende, auf CLIP basierende Diffusionsmodelle mit leistungsstarken LLMs auszustatten. ELLA verbessert die Prompt-Following-Fähigkeit des Modells und ermöglicht es Text-zu-Bild-Modellen, lange Texte zu verstehen. Wir haben einen zeitbewussten semantischen Konnektor entwickelt, der zeitabhängige Konditionierungen für verschiedene Rauschentfernungsstufen aus vorab trainierten LLMs extrahiert. Unser TSC passt die semantischen Merkmale dynamisch an verschiedene Sampling-Zeitschritte an und unterstützt die Einfrierung des U-Net auf verschiedenen semantischen Ebenen. ELLA zeigt in Benchmarks wie DPG-Bench eine überlegene Leistung, insbesondere bei komplexen Prompts mit mehreren Objekten, verschiedenen Attributen und Beziehungen.
ELLA Neueste Verkehrssituation
Monatliche Gesamtbesuche
379
Absprungrate
42.92%
Durchschnittliche Seiten pro Besuch
1.0
Durchschnittliche Besuchsdauer
00:00:00