智譜テクノロジーチームは本日、朗報を発表しました。最新開発のテキストから画像生成モデルCogView3とそのアップグレード版CogView3-Plus-3Bが正式にオープンソース化され、「智譜清言」アプリでも利用可能になったのです。この2つのモデルの登場は、AIによるアート創作が新たな段階に入ったことを意味します。

CogView3は、カスケード拡散に基づくテキストから画像生成モデルです。その生成プロセスは実に巧妙です。まず512x512ピクセルの低解像度画像を生成し、その後、中継拡散プロセスによって1024x1024に解像度を上げ、最後にさらに処理を繰り返し、2048x2048の高解像度画像を作成します。この段階的な生成方法は、デジタルアーティストがキャンバスに作品を徐々に完成させていくようなもので、ユーザーに最高の視覚体験を提供します。

image.png

公式評価によると、CogView3の性能は驚異的で、現在最高のオープンソーステキストから画像生成モデルであるSDXLを77%も上回っています。さらに注目すべきは、CogView3の推論速度がSDXLの10分の1であることです。これは、智譜チームのモデル最適化における卓越した成果を示しています。

image.png

CogView3-Plusの登場は、この技術を新たな高みへと押し上げました。このバージョンでは、高度なDiTフレームワークが導入され、Zero-SNR拡散ノイズスケジューリングが採用され、さらにテキストと画像の結合注意機構が革新的に追加されました。これらの改良により、モデルの全体的な性能が向上するだけでなく、トレーニングと推論のコストも大幅に削減され、効率性と性能の完璧なバランスを実現しています。CogView3-Plusが採用する16次元VAE潜在空間は、将来の画像生成技術の発展に新たな可能性を切り開きます。

image.png

この最先端技術を探求したい開発者や研究者のために、智譜テクノロジーチームはCogView3とCogView3-Plus-3Bのソースコードリポジトリを公開しました。この取り組みは、AI画像生成分野全体の急速な発展を促進し、より多くの革新的なアプリケーションに堅固な技術基盤を提供するでしょう。

CogView3シリーズモデルの登場により、テキストから画像生成技術の応用範囲はさらに広がります。個人創作から商業デザイン、教育支援からエンターテイメント産業まで、この技術は革命的な変化をもたらすと期待されています。近い将来、AIアシストによる創作が当たり前になり、多くの人が簡単に自分の芸術的な構想を実現できるようになるでしょう。

オープンソースリポジトリアドレス:

https://top.aibase.com/tool/cogview3

Plus オープンソースモデルリポジトリ:

https://top.aibase.com/tool/cogview3-plus-3b