GLIGEN ist ein offenes, textpromptbasiertes Bildgenerierungsmodell. Es kann Bilder basierend auf Textbeschreibungen und Begrenzungsrahmen generieren. Das Modell erreicht dies durch Einfrieren der Parameter eines vortrainierten Text-zu-Bild-Diffusionsmodells und Einfügen neuer Daten. Dieses modulare Design ermöglicht effizientes Training und bietet hohe Inferenzflexibilität. GLIGEN unterstützt die bedingte Bildgenerierung in offenen Welten und verfügt über eine starke Generalisierungsfähigkeit für neue Konzepte und Layouts.