ELLA

LLMによる意味整合性を強化した拡散モデルアダプター

一般製品画像テキストから画像意味整合
ELLA(Efficient Large Language Model Adapter)は、既存のCLIPベースの拡散モデルに強力なLLMを搭載できる軽量な手法です。ELLAはモデルのプロンプト追従能力を向上させ、テキストから画像へのモデルが長文を理解できるようにします。時間的認識意味接続器を設計し、事前学習済みLLMから様々なノイズ除去段階の時間ステップ関連条件を抽出します。このTSCは、異なるサンプリング時間ステップのセマンティック特徴に動的に適応し、様々な意味レベルでU-Netを凍結するのに役立ちます。ELLAはDPG-Benchなどのベンチマークテストで優れた性能を示し、特に複数のオブジェクトの組み合わせ、異なる属性と関係を含む複雑なプロンプトにおいて優れた結果を示します。
ウェブサイトを開く

ELLA 最新のトラフィック状況

月間総訪問数

379

直帰率

42.92%

平均ページ/訪問

1.0

平均訪問時間

00:00:00

ELLA 訪問数の傾向

ELLA 訪問地理的分布

ELLA トラフィックソース

ELLA 代替品