ELLA

Ein Diffusionsmodell-Adapter zur Verbesserung der semantischen Ausrichtung mithilfe von LLMs

Normales ProduktBildText-zu-BildSemantische Ausrichtung
ELLA (Efficient Large Language Model Adapter) ist eine leichtgewichtige Methode, um bestehende, auf CLIP basierende Diffusionsmodelle mit leistungsstarken LLMs auszustatten. ELLA verbessert die Prompt-Following-Fähigkeit des Modells und ermöglicht es Text-zu-Bild-Modellen, lange Texte zu verstehen. Wir haben einen zeitbewussten semantischen Konnektor entwickelt, der zeitabhängige Konditionierungen für verschiedene Rauschentfernungsstufen aus vorab trainierten LLMs extrahiert. Unser TSC passt die semantischen Merkmale dynamisch an verschiedene Sampling-Zeitschritte an und unterstützt die Einfrierung des U-Net auf verschiedenen semantischen Ebenen. ELLA zeigt in Benchmarks wie DPG-Bench eine überlegene Leistung, insbesondere bei komplexen Prompts mit mehreren Objekten, verschiedenen Attributen und Beziehungen.
Website öffnen

ELLA Neueste Verkehrssituation

Monatliche Gesamtbesuche

379

Absprungrate

42.92%

Durchschnittliche Seiten pro Besuch

1.0

Durchschnittliche Besuchsdauer

00:00:00

ELLA Besuchstrend

ELLA Geografische Verteilung der Besuche

ELLA Traffic-Quellen

ELLA Alternativen