ELLA
Adaptador de modelos de difusión con alineación semántica mejorada mediante LLM
Producto ComúnImagenTexto a imagenAlineación semántica
ELLA (Efficient Large Language Model Adapter) es un método ligero que equipa modelos de difusión basados en CLIP con un potente LLM. ELLA mejora la capacidad de seguimiento de indicaciones del modelo, permitiendo que los modelos de texto a imagen comprendan textos largos. Hemos diseñado un conector semántico sensible al tiempo que extrae condiciones relacionadas con los pasos temporales de un LLM preentrenado. Nuestro TSC adapta dinámicamente las características semánticas a los diferentes pasos de tiempo de muestreo, lo que ayuda a congelar la U-Net en diferentes niveles semánticos. ELLA ofrece un rendimiento superior en pruebas de referencia como DPG-Bench, especialmente en indicaciones densas que implican la combinación de múltiples objetos, diferentes atributos y relaciones.
ELLA Situación del tráfico más reciente
Total de visitas mensuales
379
Tasa de rebote
42.92%
Páginas promedio por visita
1.0
Duración promedio de la visita
00:00:00