CogView3-Plusモデルオープンソース化、テキストから画像生成技術が新たな時代へ

AIbase基地

公開日AIニュース · 1 分で読めます · Oct 15, 2024

273

智譜テクノロジーチームは本日、朗報を発表しました。最新開発のテキストから画像生成モデルCogView3とそのアップグレード版CogView3-Plus-3Bが正式にオープンソース化され、「智譜清言」アプリでも利用可能になったのです。この2つのモデルの登場は、AIによるアート創作が新たな段階に入ったことを意味します。

CogView3は、カスケード拡散に基づくテキストから画像生成モデルです。その生成プロセスは実に巧妙です。まず512x512ピクセルの低解像度画像を生成し、その後、中継拡散プロセスによって1024x1024に解像度を上げ、最後にさらに処理を繰り返し、2048x2048の高解像度画像を作成します。この段階的な生成方法は、デジタルアーティストがキャンバスに作品を徐々に完成させていくようなもので、ユーザーに最高の視覚体験を提供します。

公式評価によると、CogView3の性能は驚異的で、現在最高のオープンソーステキストから画像生成モデルであるSDXLを77％も上回っています。さらに注目すべきは、CogView3の推論速度がSDXLの10分の1であることです。これは、智譜チームのモデル最適化における卓越した成果を示しています。

CogView3-Plusの登場は、この技術を新たな高みへと押し上げました。このバージョンでは、高度なDiTフレームワークが導入され、Zero-SNR拡散ノイズスケジューリングが採用され、さらにテキストと画像の結合注意機構が革新的に追加されました。これらの改良により、モデルの全体的な性能が向上するだけでなく、トレーニングと推論のコストも大幅に削減され、効率性と性能の完璧なバランスを実現しています。CogView3-Plusが採用する16次元VAE潜在空間は、将来の画像生成技術の発展に新たな可能性を切り開きます。

この最先端技術を探求したい開発者や研究者のために、智譜テクノロジーチームはCogView3とCogView3-Plus-3Bのソースコードリポジトリを公開しました。この取り組みは、AI画像生成分野全体の急速な発展を促進し、より多くの革新的なアプリケーションに堅固な技術基盤を提供するでしょう。

CogView3シリーズモデルの登場により、テキストから画像生成技術の応用範囲はさらに広がります。個人創作から商業デザイン、教育支援からエンターテイメント産業まで、この技術は革命的な変化をもたらすと期待されています。近い将来、AIアシストによる創作が当たり前になり、多くの人が簡単に自分の芸術的な構想を実現できるようになるでしょう。

オープンソースリポジトリアドレス:

https://top.aibase.com/tool/cogview3

Plus オープンソースモデルリポジトリ:

https://top.aibase.com/tool/cogview3-plus-3b

AI創業のベテラン胡雲華氏、智譜AIに入社。「智譜清言」の責任者に就任

インテリジェント・エマージェンスの報道によると、先日、元マイクロソフトアジア研究院研究員、アリババ達摩院シニアテクニカルエキスパート、アリペイ中国チーフデータオフィサーの胡雲華氏が、大規模言語モデルのユニコーン企業である智譜AIに入社し、Cエンドアプリケーション「智譜清言」の責任者に就任しました。胡氏の入社は、智譜AIのプロダクト責任者において新たな章を刻む出来事となります。胡氏は2003年にマイクロソフトアジア研究院でインターンシップを行い、2007年に正式に研究員となりました。2012年にはアリババ達摩院に入社し、花名は「呉鉤」でした。アリババでの2年間…

智譜清言ブラウザープラグイン、AutoGLMを統合し、人間の行動を模倣してWebタスクを自動実行

智譜清言ブラウザープラグインは最近、AutoGLM機能の統合を発表しました。これは、ブラウザープラグインがインテリジェントエージェントへと進化したことを意味します。AutoGLMの統合により、清言プラグインはユーザーのテキストまたは音声コマンドに基づき、人間の操作を模倣してWebタスクを自動的に実行できるようになり、ユーザーに「全自動」の新しいブラウジング体験を提供します。AutoGLMは智譜が提供する大規模言語モデルベースのインテリジェントインタラクションエージェントであり、ユーザーの意図を理解して対応する操作を実行できます。現在、この機能は百度検索、微博、知…で利用可能です。

智譜AIがAutoGLMエージェントを発表：指示を入力するだけで人間のスマホ操作をシミュレート

智譜テクノロジーチームは最近、GLMテクノロジーチームの研究成果に基づいた新製品AutoGLMを発表しました。これは、人間のスマホ操作をシミュレートし、様々なタスクを実行できるエージェントです。AutoGLMの発表は、「スマホ利用」分野におけるAIの発展を示しており、AIの応用が人々の日常生活により近づくことを意味します。

智譜清言、エンドツーエンド感情音声機能上线：いつでも中断可能、多言語と方言に対応

智譜AIは、同社のエンドツーエンド感情音声技術が智譜清言プラットフォームに正式に導入され、全ユーザーに公開されたことを発表しました。この技術は従来のテキスト読み上げ（TTS）技術の限界を突破し、コンテキストを深く理解し、感情豊かな自然な会話を生成できます。これは、智譜AIの音声合成技術が、単純なテキスト朗読から、真の感情表現ができる人工知能へと進化したことを意味します。