中国語を理解できるオープンソースの画像生成モデルを探し続けていませんか?もう、英語のプロンプトに悩まされる必要はありません!中国のAI大手、智譜AIが、画期的な新しい文言画像生成モデルCogView4をオープンソースとして公開し、中国語による画像生成技術を新たな高みに押し上げました!デザイナー、コンテンツクリエイター、そしてAI絵画に興味のある初心者まで、誰でも母国語でAI画像生成を楽しめます!
CogView4最大の特長は、中国語への「超強力な理解力」です!もう翻訳ソフトを使って中国語のプロンプトを英語に苦労して翻訳する必要はありません。自然な中国語の指示で、CogView4はあなたの「画意」を瞬時に理解し、あなたが望む画像を正確に生成します!さらに驚くべきことに、画像の中に直接漢字を「書く」ことができる最初のオープンソースモデルです!これは中国語ユーザーのために作られた「魔法の筆」のようなもので、あなたの創造性をより「そのまま」に表現し、画像内の文字が「馴染まない」心配はもうありません!
さらに素晴らしいことに、CogView4は画像サイズとプロンプトの長さの制限を完全に解消しました!巨大なワイドスクリーンポスターを生成したいですか?問題ありません!複雑なシーンを説明する長いプロンプトを使いたいですか?ご自由にどうぞ!CogView4はあらゆる「突拍子もない」創作ニーズに対応し、あなたの想像力を「枠にとらわれず」自由に羽ばたかせます!
しかも、CogView4は「飾り」ではありません。権威あるDPG-Benchベンチマークテストで「優勝」し、総合スコアで1位を獲得するなど、その実力は一目瞭然です!これは、CogView4が「使いやすい」だけでなく「強力」であり、画像生成の質も非常に高く、画像の品質に対する「厳しい」要求にも十分に応えられることを意味します!
より多くの開発者とユーザーがCogView4を「使いこなせる」ように、智譜AIは、今後ControlNet、ComfyUIのサポート、およびモデル微調整ツールもオープンソースとして公開すると発表しました。「完全な武術秘伝書」を提供するようなものです!つまり、CogView4の強力な機能を「すぐに使える」だけでなく、自分のニーズに合わせて「高度にカスタマイズ」し、よりパーソナルで強力な画像生成モデルを作成することもできます!
では、CogView4はどのように「神技」を身につけたのでしょうか?簡単に言うと、以下のいくつかの点で「技術的なアップグレード」が行われました。
バイリンガル能力の「飛躍的向上」:CogView4の「脳」は、より強力なGLM-4エンコーダーにアップグレードされ、中国語と英語の両方を「マスター」しました!また、膨大な量の中国語と英語のテキストと画像データから「学び」、従来の中国語モデルが「英語が苦手」だったという問題を完全に克服し、真の「中国語と英語のバイリンガル、自由自在な切り替え」を実現しました!
テキスト処理の「高度化」:CogView4は「動的テキスト長」技術を採用しており、「スマートな仕立て屋」のように、プロンプトの長さに合わせて「オーダーメイド」で対応し、従来の固定長方式の「無駄」と「冗長性」を回避し、効率を5%~30%向上させました!これは、CogView4がプロンプトをより正確に理解し、生成速度も向上したことを意味します!
解像度生成の「柔軟性」:CogView4は「混合解像度トレーニング」と「2次元回転位置エンコーディング」などの「最新技術」を採用し、あらゆるサイズの画像生成を「制御」できるようになりました。「高解像度の大型画像」でも「コンパクトで繊細な画像」でも、簡単に処理できます!また、Flow-matching拡散モデルとパラメトリック線形動的ノイズ計画を採用することで、画像生成プロセスをより「スムーズ」で「制御可能」にしました!
トレーニングプロセスの「精密化」:CogView4のトレーニングプロセスは「精巧に作り込まれており」、「多段階トレーニング」と「人間の好みへの調整」などの「段階的な鍛錬」を経てきました。基本解像度から汎解像度、そして高品質データの微調整まで、あらゆるステップで「完璧」を目指しています!また、Share-param DiTアーキテクチャを維持し、異なるモダリティに独立した適応層正規化を使用することで、モデルをより「強力」で「効率的」にしました!
プロジェクトアドレス:https://github.com/THUDM/CogView4