Instruct-Imagen
多モーダル画像生成モデル
一般製品画像多モーダル画像生成
Instruct-Imagenは、多モーダル指示を取り入れることで、異種画像生成タスクの処理を可能にし、未知のタスクにおいても汎化を実現する多モーダル画像生成モデルです。テキスト、エッジ、スタイル、テーマなど、様々なモーダルを自然言語を用いて統合し、多様な生成意図を標準化します。事前学習済みのテキストから画像への拡散モデルに対して、2段階フレームワークによる微調整を行い、検索強化学習と多様な画像生成タスクによる微調整を採用することで、様々な画像生成データセットにおける人的評価において、領域内における既存のタスク特化型モデルと同等以上の性能を示し、未知でより複雑なタスクへの汎化能力の高さを示唆する結果が得られました。
Instruct-Imagen 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44