ELLA

Adaptador de modelos de difusión con alineación semántica mejorada mediante LLM

Producto ComúnImagenTexto a imagenAlineación semántica
ELLA (Efficient Large Language Model Adapter) es un método ligero que equipa modelos de difusión basados en CLIP con un potente LLM. ELLA mejora la capacidad de seguimiento de indicaciones del modelo, permitiendo que los modelos de texto a imagen comprendan textos largos. Hemos diseñado un conector semántico sensible al tiempo que extrae condiciones relacionadas con los pasos temporales de un LLM preentrenado. Nuestro TSC adapta dinámicamente las características semánticas a los diferentes pasos de tiempo de muestreo, lo que ayuda a congelar la U-Net en diferentes niveles semánticos. ELLA ofrece un rendimiento superior en pruebas de referencia como DPG-Bench, especialmente en indicaciones densas que implican la combinación de múltiples objetos, diferentes atributos y relaciones.
Abrir sitio web

ELLA Situación del tráfico más reciente

Total de visitas mensuales

379

Tasa de rebote

42.92%

Páginas promedio por visita

1.0

Duración promedio de la visita

00:00:00

ELLA Tendencia de visitas

ELLA Distribución geográfica de las visitas

ELLA Fuentes de tráfico

ELLA Alternativas