2025年3月4日、北京智譜華章科技有限公司は、漢字の生成をサポートする初のオープンソース画像生成モデル「CogView4」を発表しました。このモデルは、DPG-Benchベンチマークテストで総合スコア1位を獲得し、オープンソース画像生成モデルにおける最先端技術(SOTA)となりました。Apache2.0ライセンスに準拠しており、このライセンスを採用した最初の画像生成モデルでもあります。
CogView4は、強力な複雑な意味の整合性と指示に従う能力を備え、任意の長さの中国語と英語の両言語の入力をサポートし、任意の解像度の画像を生成できます。高品質な画像を生成できるだけでなく、画面に自然に漢字を組み込むことができ、広告や短編動画などのクリエイティブなニーズを満たします。技術的には、CogView4は、中国語と英語の両言語能力を備えたGLM-4encoderを採用し、中国語と英語の両言語のテキストと画像のトレーニングを通じて、両言語のプロンプト入力能力を実現しています。
このモデルは、任意の長さのプロンプト入力をサポートし、任意の解像度の画像を生成できるため、創作の自由度とトレーニング効率が大幅に向上します。CogView4は、画像の位置情報をモデル化するために2次元回転位置エンコーディング(2D RoPE)を採用し、内挿位置エンコーディングによって異なる解像度の画像生成をサポートしています。さらに、Flow-matching方式を用いて拡散生成をモデル化し、パラメータ化された線形動的ノイズ計画を組み合わせることで、異なる解像度の画像のSN比のニーズに対応しています。
アーキテクチャ設計において、CogView4は前世代のShare-param DiTアーキテクチャを引き継ぎ、テキストと画像のモダリティに対してそれぞれ独立した適応型LayerNorm層を設計することで、モダリティ間の効率的な適合を実現しています。このモデルは、基本解像度トレーニング、汎解像度トレーニング、高品質データ微調整、人間の好みへの調整トレーニングを含む多段階トレーニング戦略を採用し、生成された画像が高美的で人間の好みに合致することを保証しています。
CogView4は、従来の固定トークン長の制限を突破し、より高いトークン上限を許可し、トレーニングプロセスにおけるテキストトークンの冗長性を大幅に削減しました。キャプションの平均長が200〜300トークンの場合、従来の512トークン固定方式と比較して、CogView4は約50%のトークン冗長性を削減し、モデルの漸進的トレーニング段階で5%〜30%の効率向上を実現しました。
さらに、CogView4はApache2.0ライセンスをサポートしており、今後、ControlNet、ComfyUIなどのエコシステムサポートを順次追加する予定です。完全な微調整ツールキットも近日中にリリース予定です。
オープンソースリポジトリアドレス:
https://github.com/THUDM/CogView4
モデルリポジトリ:
https://huggingface.co/THUDM/CogView4-6B
https://modelscope.cn/models/ZhipuAI/CogView4-6B