智譜AIは先日、最新基盤大規模言語モデルGLM-4-Plusを発表し、OpenAI GPT-4に匹敵する強力なビジョン能力を披露、8月30日の利用開始を発表しました。この画期的な進歩は、国産AI技術の飛躍を象徴するだけでなく、ユーザーに前例のないスマートな体験をもたらします。
主なアップデートのハイライト:
言語基盤モデルGLM-4-Plus: 言語解析、指示実行、長文処理能力において質的な飛躍を遂げ、国際競争においても引き続きトップレベルを維持しています。
文から画像生成モデルCogView-3-Plus: 業界トップレベルのMJ-V6やFLUXモデルに匹敵する性能です。
画像/動画理解モデルGLM-4V-Plus: 画像理解において優れた性能を発揮するだけでなく、時系列分析に基づいた動画理解能力も備えています。このモデルはまもなくオープンなプラットフォームbigmodel.cnで公開され、国内初の汎用動画理解モデルAPIとなります。
動画生成モデルCogVideoX: 2Bバージョンの発表とオープンソース化に続き、5Bバージョンも正式にオープンソース化され、性能が大幅に向上しました。現在、オープンソースの動画生成モデルの中でもトップクラスです。
智譜のオープンソースモデルの累積ダウンロード数は2000万回を超え、オープンソースコミュニティの繁栄に大きく貢献しています。
GLM-4-Plusは複数の重要な分野で優れた性能を発揮しています。言語能力においては、理解力、指示への従順さ、長文処理などにおいて国際的なトップレベルに達しており、GPT-4や4050億パラメーターのLlama3.1に匹敵します。特に注目すべきは、GLM-4-Plusが正確な長短文データの混合戦略によって、長文推論の効果を大幅に向上させた点です。
ビジョンインテリジェンスの分野では、GLM-4V-Plusは優れた画像と動画の理解能力を示しています。時間認識能力を備えているだけでなく、複雑な動画の内容も処理・理解できます。注目すべきは、このモデルが智譜のオープンなプラットフォームで公開され、国内初の汎用動画理解モデルAPIとなり、開発者や研究者にとって強力なツールとなることです。
例えば、動画を提示し、「緑色の服を着た選手は動画全体で何をしましたか?」と質問すると、選手の行動を正確に記述し、動画の見どころが何秒目にあったかを正確に教えてくれます。
公式よりスクリーンショット
智譜AIは生成分野でも画期的な進歩を遂げています。CogView-3-Plusは、文から画像を生成する性能において、現在最高のMJ-V6やFLUXなどのモデルに近づいています。同時に、動画生成モデルCogVideoXは、より高性能な5Bバージョンを発表し、現在のオープンソース動画生成モデルの中で最適な選択肢と考えられています。
最も期待されているのは、智譜の清言アプリに「ビデオ通話」機能が追加されることです。これは、国内初のC向けに公開されるAIビデオ通話機能です。この機能は、テキスト、音声、動画の3つのモダリティを網羅し、リアルタイム推論能力を備えています。ユーザーはAIとスムーズに会話でき、頻繁に中断してもすぐに反応します。
さらに驚くべきことに、カメラをオンにするだけで、AIはユーザーが見えている画面を見て理解し、音声指示を正確に実行します。
この画期的なビデオ通話機能は8月30日に公開され、まず清言の一部ユーザーに提供され、外部からの申請も受け付けます。このイノベーションは、智譜AIの技術力を示すだけでなく、人工知能と日常生活の深い融合に新たな可能性を切り開きます。
参考文献:https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w