智谱AI震撼发布GLM-4-Plus：媲美GPT-4，首创C端视频通话功能

智谱AI近日重磅发布了其最新基座大模型GLM-4-Plus，展示了堪比OpenAI GPT-4的强大视觉能力，并宣布将于8月30日开放使用。这一突破性进展不仅标志着国产AI技术的飞跃，更为用户带来了前所未有的智能体验。

主要更新亮点:

语言基础模型GLM-4-Plus:在语言解析、指令执行和长文本处理能力上实现了质的飞跃，持续保持在国际竞争中的领先地位。
文生图模型CogView-3-Plus:性能与业界顶尖的MJ-V6和FLUX模型相媲美。
图像/视频理解模型GLM-4V-Plus:不仅在图像理解方面表现出色，还具备基于时间序列分析的视频理解能力。该模型即将在开放平台bigmodel.cn上线，并成为国内首个通用的视频理解模型API。
视频生成模型CogVideoX:继2B版本发布并开源后，5B版本也正式对外开源，性能得到显著提升，成为目前开源视频生成模型中的佼佼者。
智谱开源模型的累计下载量已超过2000万次，为开源社区的繁荣发展做出了显著贡献。

GLM-4-Plus在多个关键领域均表现出色。在语言能力方面，该模型在理解、指令遵循和长文本处理等方面已达到国际领先水平，其表现与GPT-4和拥有405B参数的Llama3.1不相上下。特别值得一提的是，GLM-4-Plus通过精准的长短文本数据混合策略，显著提升了长文本推理效果。

在视觉智能领域，GLM-4V-Plus展现出卓越的图像和视频理解能力。它不仅具备时间感知能力，还能处理和理解复杂的视频内容。值得注意的是，该模型将在智谱开放平台上线，成为国内首个通用视频理解模型API，为开发者和研究人员提供强大的工具。

比如，你给它一段这样的视频，并询问它穿绿色衣服的球员在整个视频都做了什么?它可以精准地描述球员的球员所做的动作，还能准确地告诉你视频的精彩时刻在第几秒：

截图自官方

智谱AI在生成领域同样取得了突破性进展。CogView-3-Plus在文生图性能上已接近目前最优的MJ-V6和FLUX等模型。同时，视频生成模型CogVideoX推出了性能更强的5B版本，被认为是当前开源视频生成模型中的最佳选择。

最令人期待的是，智谱的清言APP即将推出"视频通话"功能，这是国内首个面向C端开放的AI视频通话功能。该功能跨越了文本、音频和视频三大模态，具备实时推理能力。用户可以与AI进行流畅对话，即便频繁打断也能迅速反应。

更令人惊叹的是，只要打开摄像头，AI就能看到并理解用户所看到的画面，同时准确执行语音指令。

这项革命性的视频通话功能将于8月30日上线，首批面向清言部分用户开放，同时接受外部申请。这一创新不仅展示了智谱AI的技术实力，也为人工智能与日常生活的深度融合开辟了新的可能性。

参考资料：https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w

AI新闻资讯