GLIGEN es un modelo de generación de imágenes abierto basado en indicaciones de texto. Puede generar imágenes a partir de descripciones textuales y condiciones restrictivas como cuadros delimitadores. El modelo se implementa congelando los parámetros de un modelo de difusión preentrenado de texto a imagen e insertando nuevos datos. Este diseño modular permite un entrenamiento eficiente y una gran flexibilidad en la inferencia. GLIGEN admite la generación de imágenes condicionales en un mundo abierto, mostrando una gran capacidad de generalización para conceptos y diseños novedosos.