ELLA (Efficient Large Language Model Adapter) es un método ligero que equipa modelos de difusión basados en CLIP con un potente LLM. ELLA mejora la capacidad de seguimiento de indicaciones del modelo, permitiendo que los modelos de texto a imagen comprendan textos largos. Hemos diseñado un conector semántico sensible al tiempo que extrae condiciones relacionadas con los pasos temporales de un LLM preentrenado. Nuestro TSC adapta dinámicamente las características semánticas a los diferentes pasos de tiempo de muestreo, lo que ayuda a congelar la U-Net en diferentes niveles semánticos. ELLA ofrece un rendimiento superior en pruebas de referencia como DPG-Bench, especialmente en indicaciones densas que implican la combinación de múltiples objetos, diferentes atributos y relaciones.