LaVi-Bridge

異なる言語モデルと視覚生成モデルを接続して、テキストから画像を生成します。

一般製品画像テキストから画像生成言語モデル

LaVi-Bridgeは、テキストから画像への拡散モデル用に設計された橋渡しモデルです。様々な事前学習済み言語モデルと視覚生成モデルを接続できます。LoRAとアダプターを活用することで、柔軟でプラグアンドプレイ方式を実現し、元の言語モデルと視覚モデルの重みを変更する必要はありません。様々な言語モデルと視覚生成モデルに対応しており、異なる構造にも対応可能です。このフレームワークにおいて、より高度なモジュール（より高度な言語モデルや視覚生成モデルなど）を統合することで、テキストとの整合性や画像品質などの能力を大幅に向上できることを実証しました。本モデルは広範囲な評価を経て、その有効性が確認されています。

Best AI Websites & Tools

LaVi-Bridge

LaVi-Bridge 代替品

LaVi-Bridge — 異なる言語モデルと視覚生成モデルを接続して、テキストから画像を生成します。

Flex.1-alpha — 80億パラメータを持つ、Apache 2.0オープンソースライセンスのテキストから画像を生成する事前学習済みモデルです。

Stable Diffusion 3.5 Large用ControlNets — Stable Diffusion 3.5 Large向けの3種類のControlNetsモデル

sd3.5 — 高品質な画像生成のための軽量推理モデル

Stable Diffusion 3.5 — 高性能画像生成モデル

DeepMind — Google傘下の、最先端の人工知能研究企業

SDXL Flash — 高効率なテキストから画像生成モデル

生成AIコース — AI学習プラットフォーム

SDXS — リアルタイムで潜在拡散モデルを１ステップで実行可能。画像条件による生成に対応

CogView4-6B — CogView4-6Bは、高品質な画像生成に特化した強力なテキストから画像への生成モデルです。

DeepResearch123 — AI研究リソースナビゲーションウェブサイト。AI研究リソース、ドキュメント、実践事例を提供します。

Janus-Pro-7B — Janus-Pro-7Bは、マルチモーダルな理解と生成を統合した、新しい自己回帰フレームワークです。

Janus-Pro-1B — Janus-Pro-1Bは、統一的な多様なモダリティを理解し生成する自己回帰フレームワークです。

Momodel.cn — Python、AI、大規模言語モデル、AIによる文章作成・画像生成コースをオンラインで学習。初心者でも簡単に始められます。

Framesの世界 — Framesは、Runwayが提供する高度な画像生成基盤モデルです。これまでにないレベルのスタイル制御と視覚的忠実度を実現します。

MiniMax-01 — 4,560億パラメーターを持つ強力な言語モデルで、最大400万トークンのコンテキストを処理可能です。

rStar-Math — 小型言語モデルが自己進化と深層思考を通じて数学的推論能力を習得する研究成果を示します。

timesfm-2.0-500m-pytorch — Google Researchが開発した事前学習済み時系列予測モデルです。

TryOffAnyone — 着用している人物から平面状の布地モデルを生成します。

Llama-3.1-70B-Instruct-AWQ-INT4 — 700億パラメーターのテキスト生成モデル

VidTok — マイクロソフトがオープンソースで公開した、先進的なビデオ分割器群

Gemini 2.0 Flash Experimental — Google DeepMind開発の高性能AIモデル

CausVid — 高速因果ビデオジェネレーター。リアルタイムでのビデオ生成を実現します。

Phi-4 — 複雑な推論に特化した、マイクロソフト最新の小型言語モデルです。

PaliGemma 2 — PaliGemma 2は、調整が容易な高性能なビジョン言語モデルです。

GraphCast — 深層学習による天気予測モデル

BooW-VTON — 屋外でのバーチャル試着効果を向上させるモデルトレーニングコードライブラリ

OLMo-2-1124-13B-DPO — 多様なタスクに対応可能な高性能英語言語モデル

OpenScholar — 科学文献合成のための検索拡張型言語モデル

OLMo 2 — 最先端、完全にオープンな言語モデル