智譜AIが最新オープンソースのテキストから画像生成モデルCogView4を発表しました。CogView4はパラメータ数が6億に達するだけでなく、中国語入力と中国語テキストから画像への生成を全面的にサポートしており、「画面に漢字を生成できる最初のオープンソースモデル」と呼ばれています。
CogView4の最大の特徴は、中国語と英語の両方のプロンプト入力をサポートしている点です。特に複雑な中国語指示の理解と遵守に優れており、中国語コンテンツ制作者にとって朗報と言えるでしょう。画像に漢字を生成できる最初のオープンソースのテキストから画像生成モデルとして、オープンソース分野における大きな空白を埋めるものです。さらに、任意の縦横比の画像を生成でき、任意の長さのプロンプト入力を処理できるため、高い柔軟性を誇ります。
CogView4の両言語対応能力は、技術アーキテクチャの全面的なアップグレードによるものです。テキストエンコーダーがGLM-4にアップグレードされ、中国語と英語の両方の入力をサポートするようになり、以前のオープンソースモデルが英語のみをサポートしていたという制限を完全に打破しました。このモデルは、中国語と英語の両方のテキストと画像のペアを使用してトレーニングされており、中国語環境での生成品質が保証されています。
テキスト処理において、CogView4は従来の固定長設計を放棄し、動的なテキスト長方式を採用しています。平均的な説明テキストが200~300トークンの場合、従来の固定512トークン方式と比較して冗長性が約50%削減され、トレーニング効率が5~30%向上します。この革新的なアプローチは、計算資源の最適化だけでなく、長短さまざまなプロンプトをより効率的に処理することも可能にします。
CogView4は任意の解像度の画像生成をサポートしており、その背景には複数の技術的ブレークスルーがあります。混合解像度トレーニングを採用し、2次元回転位置エンコーディングと補間位置表現を組み合わせることで、さまざまなサイズ要件に対応します。さらに、Flow-matching拡散モデルとパラメータ化線形動的ノイズ計画に基づいて、生成画像の品質と多様性をさらに向上させています。
CogView4のトレーニングプロセスは、基礎解像度トレーニングから、汎解像度適合、高品質データ微調整、そして人間の好みによるアラインメントによる出力最適化まで、複数の段階に分かれています。このプロセスではShare-param DiTアーキテクチャを維持しながら、異なるモダリティに独立した適応層正規化を導入することで、さまざまなタスクにおけるモデルの安定性と一貫性を確保しています。
プロジェクト:https://github.com/THUDM/CogView4