CogView
Transformerベースの汎用ドメインテキストツーイメージ生成モデル
一般製品画像Transformerテキストツーイメージ
CogViewは、汎用ドメインのテキストから画像を生成するための事前学習済みTransformerモデルです。410億個のパラメータを含み、高品質で多様な画像を生成できます。モデルの学習アプローチは抽象的なものから具体的なものへと段階的に進めるもので、まず事前学習によって汎用的な知識を獲得し、その後、特定のドメインでファインチューニングを行い画像を生成することで、生成品質を大幅に向上させています。特筆すべき点として、論文では大規模モデルの安定した学習を支援する2つの手法、PB-relaxとSandwich-LNが提案されています。
CogView 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34