先日、智譜AIは最新作であるCogView3とそのアップグレード版CogView-3Plus-3Bを公開し、テキストから画像を生成する分野に新たな活力を注ぎ込みました。

CogView3の登場は重要なマイルストーンと言えるでしょう。テキストから画像を生成する分野で中継拡散を実現した最初のモデルとして、独自の級聯拡散手法を採用しています。この革新的なアプローチは、まず低解像度の画像を生成し、その後、中継に基づく超解像技術を用いて最終的な出力を完成させるものです。これにより、生成画像の品質が大幅に向上するだけでなく、訓練と推論のコストも大幅に削減されます。

image.png

最も注目すべきはCogView3の性能です。人間の評価結果によると、CogView3は現在の最先端のオープンソーステキストから画像生成モデルであるSDXLを生成品質で上回り、勝率は77.0%に達しました。さらに驚くべきことに、SDXLのおよそ半分の手間でこの成果を達成しました。CogView3の簡略版を使用すれば、SDXLの1/10の手間で、同等の性能を維持することも可能です。この画期的な進歩は、高効率で高品質な画像生成の可能性を大きく広げます。

同時に、智譜AIはDiT(Diffusion Transformers)フレームワークに基づく画像モデルであるCogView-3Plus-3Bも発表しました。具体的なテスト結果はまだ公開されていませんが、業界はその潜在能力に大きな期待を寄せています。CogView-3Plus-3BはCogView3をさらに最適化し、Zero-SNR拡散ノイズスケジューリングや統合テキスト-画像アテンションメカニズムなどの高度な技術を導入しています。これらの改良により、訓練と推論のコストが削減されながらも、強力な画像生成能力が維持されています。

特筆すべきは、CogView-3Plus-3Bがサポートする画像解像度の範囲が非常に広く、512x512から2048x2048まで対応していることです。これにより、利用シーンの柔軟性が大幅に向上します。日常的な使用から専門的な創作まで、適切な解像度を選択できます。

これらのモデルをユーザーがより効果的に利用できるように、智譜AIは実用的なアドバイスとツールも提供しています。大規模言語モデル(LLM)を使用してプロンプトを最適化することを推奨しており、これにより生成画像の品質を大幅に向上させることができます。また、智譜AIはサンプルスクリプトも提供しており、ユーザーの利用障壁を大幅に低くしています。

プロジェクトアドレス:https://github.com/THUDM/CogView3