ELLA

通过LLM增强语义对齐的扩散模型适配器

普通产品图像文本到图像语义对齐
ELLA(Efficient Large Language Model Adapter)是一种轻量级方法,可将现有的基于CLIP的扩散模型配备强大的LLM。ELLA提高了模型的提示跟随能力,使文本到图像模型能够理解长文本。我们设计了一个时间感知语义连接器,从预训练的LLM中提取各种去噪阶段的时间步骤相关条件。我们的TSC动态地适应了不同采样时间步的语义特征,有助于在不同的语义层次上对U-Net进行冻结。ELLA在DPG-Bench等基准测试中表现优越,尤其在涉及多个对象组合、不同属性和关系的密集提示方面表现出色。
打开网站

ELLA 最新流量情况

月总访问量

810

跳出率

42.65%

平均页面访问数

1.0

平均访问时长

00:00:00

ELLA 访问量趋势

ELLA 访问地理位置分布

ELLA 流量来源

ELLA 替代品