北京智譜華章科技有限公司は、2024年8月29日、次世代基盤モデルの発表や新たなアプリケーションサービスを含む、一連の重要な技術アップデートを発表しました。

KDD2024カンファレンスにおいて、智譜は、言語モデルGLM-4-Plus、テキストから画像生成モデルCogView-3-Plus、画像/動画理解モデルGLM-4V-Plus、そして動画生成モデルCogVideoXを含む次世代基盤モデルを発表しました。これらのモデルは、それぞれの分野で国際的なトップレベルに達しています。

GLM-4-Plusモデルは、言語理解、指示遵守、長文処理において性能が大幅に向上し、GPT-4oなどのトップレベルのモデルと同等です。CogView-3-Plusモデルは、従来のUNetアーキテクチャに代えてTransformerアーキテクチャを採用することで、モデルの精度を最適化し、MJ-V6やFLUXなどのトップレベルのモデルに匹敵する性能を実現しました。GLM-4V-Plusモデルは、高品質の画像理解と動画理解能力を備え、国内初の汎用動画理解モデルAPIとなりました。CogVideoXモデルは、2Bバージョンの公開後、さらに5Bバージョンをオープンソース化し、性能が向上し、現在のオープンソース動画生成モデルの中でトップクラスとなっています。

微信截图_20240830075752.png

さらに、智譜は「清言APP」上で、国内初のC向けユーザーを対象としたビデオ通話サービスを開始しました。このサービスは、テキスト、音声、動画の複数モダリティに対応し、リアルタイム推論機能を備え、ユーザーにスムーズなインタラクティブ体験を提供します。

智譜はまた、GLM-4-Flash APIの無料利用を発表しました。このAPIは、速度と性能に優れており、ユーザーは独自のモデルとアプリケーションを迅速かつ無料で構築できます。同時に、智譜は様々なユーザーのニーズに対応するため、モデルの微調整機能を提供しています。

智譜は、今後も前進し、人間のように思考する機械を実現し、ユーザーにより高度な技術とサービスを提供すると述べています。

主なアップデート:

  • 言語基盤モデルGLM-4-Plus:言語理解、指示遵守、長文処理において性能が大幅に向上し、国際的なトップレベルを維持しています。

  • テキストから画像生成基盤モデル CogView-3-Plus:現在最高のMJ-V6やFLUXなどのモデルに匹敵する性能を備えています。

  • 画像/動画理解基盤モデル GLM-4V-Plus:優れた画像理解能力と、時間的認識に基づいた動画理解能力を備えています。このモデルはオープンなプラットフォーム(bigmodel.cn)で公開され、国内初の汎用動画理解モデルAPIとなります。

  • 動画生成基盤モデル CogVideoX:2Bバージョンの公開とオープンソース化に続き、5Bバージョンも正式にオープンソース化され、性能がさらに向上しました。現在のオープンソース動画生成モデルの中で最適な選択肢です。

  • 「清言 APP」ビデオ通話機能開始:国内初のC向けユーザーに公開されたビデオ通話サービス。 「清言 APP」のビデオ通話機能は、テキスト、音声、動画の複数モダリティに対応し、リアルタイム推論機能を備えています。

  • GLM-4-Flash API:推論サービスが完全に無料で、微調整サービスも提供しています。

ビデオ通話サービス申請リンク:

https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf