北京智譜華章科技有限公司は2025年1月16日、一連の新しいモデルを発表し、bigmodel.cnで公開しました。8月に「智譜清言」をリリースした後、同社は言語、音声、画像、動画の理解と生成分野で深く探求し、GLM-Voice、GLM-4V、CogView、CogVideoXなどのマルチモーダルモデルを開発しました。
今回発表された新しいエンドツーエンドモデルGLM-Realtimeは、低遅延の動画理解と音声インタラクションを実現し、清唱機能を統合し、最長2分間の記憶とFunction Call機能をサポートしています。同社は同時にGLM-4-AirとGLM-4V-Plusモデルをアップグレードし、業界最高の性能とコストパフォーマンスの言語モデルソリューションを提供することに取り組んでいます。智譜は常に、高度な大規模言語モデル技術を社会に還元することに尽力しており、特にFlash全モーダル無料モデルを設け、言語、テキストから画像生成、テキストから動画生成、画像理解など複数のシナリオを網羅し、開発者が簡単にアプリケーションのイノベーションを実現できるように支援しています。
GLM-Realtimeはビデオ通話で2分間の内容記憶能力を持ち、音声インタラクションにおいては革新的に清唱機能を実現し、大規模言語モデルに会話中の歌唱能力を持たせました。同社はRealtime APIをスマートグラスやコンパニオン人形に統合し、ユーザーがほぼリアルタイムのインテリジェントアシスタントインタラクションを体験できるようにしています。RealtimeはさらにFunction Call機能をサポートしており、自身の知識と能力を駆使して外部の知識やツールを柔軟に呼び出し、より幅広いビジネスシーンに展開できます。GLM-Realtime APIは智譜オープンプラットフォームbigmodel.cnで公開されており、現時点では無料で利用できます。
GLM-4-Airは公開以来、高いコストパフォーマンスで開発者に好評を得ており、今回GLM-4-Air-0111として全面的にアップグレードされました。トレーニングデータとプロセスを最適化することで、規模の大きいGLM-4-Plusに匹敵する性能を一部の指標で実現し、同時にモデル価格を従来の50%に削減することで、大規模言語モデルの導入障壁を下げています。ビジョン理解モデルGLM-4V-Plusも全面的にアップグレードされ、新バージョンは複数の公開ランキングで顕著な性能向上を示し、可変解像度機能をサポートし、さまざまなサイズの画像入力に対応し、小さな画像のシーンではトークンの消費を大幅に削減し、4Kの高解像度画像と極端な縦横比の画像の損失のない認識をサポートし、最長2時間の動画理解能力を備え、長尺動画の理解と分析に効率的で正確なソリューションを提供します。
智譜は大規模言語モデルの普及に尽力しており、開発者のイノベーションを支援するために、社会全体に無料で公開されているFlashシリーズの普惠モデルAPIを特別に設定しました。業界初の全モーダル無料シリーズモデルとして、開発者は言語、マルチモーダル理解、マルチモーダル生成機能を無料で利用できます。近日中にFlashシリーズが全面的にアップグレードされ、メンバーには言語モデルGLM-4-Flash、画像理解モデルGLM-4V-Flash、画像生成モデルCogView-3-Flash、動画生成モデルCogVideoX-Flashが含まれます。