LaVi-Bridge
異なる言語モデルと視覚生成モデルを接続して、テキストから画像を生成します。
一般製品画像テキストから画像生成言語モデル
LaVi-Bridgeは、テキストから画像への拡散モデル用に設計された橋渡しモデルです。様々な事前学習済み言語モデルと視覚生成モデルを接続できます。LoRAとアダプターを活用することで、柔軟でプラグアンドプレイ方式を実現し、元の言語モデルと視覚モデルの重みを変更する必要はありません。様々な言語モデルと視覚生成モデルに対応しており、異なる構造にも対応可能です。このフレームワークにおいて、より高度なモジュール(より高度な言語モデルや視覚生成モデルなど)を統合することで、テキストとの整合性や画像品質などの能力を大幅に向上できることを実証しました。本モデルは広範囲な評価を経て、その有効性が確認されています。