北京智谱华章科技有限公司于2025年1月16日宣布推出一系列新模型,并在bigmodel.cn上线。继8月推出「智谱清言」后,公司在语言、语音、图像和视频的理解与生成领域深入探索,推出了GLM-Voice、GLM-4V、CogView、CogVideoX等多模态模型。

此次发布的全新端到端模型GLM-Realtime,实现了低延迟的视频理解与语音交互,融入了清唱功能,并支持长达2分钟的记忆及Function Call功能。公司还同步升级了GLM-4-Air和GLM-4V-Plus模型,致力于提供业界最强性能和性价比的语言模型解决方案。智谱始终致力于以先进的大模型技术回馈社会,特别设立了Flash全模态免费模型,涵盖语言、文生图、文生视频及图像理解等多个场景,助力开发者轻松实现应用创新。

微信截图_20250116150923.png

GLM-Realtime在视频通话上具备2分钟的内容记忆能力,语音交互方面创新性地实现了清唱功能,让大模型具备在对话中的歌唱能力。公司将Realtime API集成到智能眼镜和陪伴娃娃中,以便用户体验近乎实时的智能助手交互。Realtime进一步支持Function Call功能,能够依靠自身知识和能力,灵活调用外部知识和工具,拓展到更广泛的商业场景。GLM-Realtime API已上线智谱开放平台bigmodel.cn,现阶段免费调用。

GLM-4-Air自上线以来以高性价比受开发者欢迎,此次全面升级为GLM-4-Air-0111,通过优化训练数据和流程,在某些维度性能接近规模更大的GLM-4-Plus,同时模型价格降至原来的50%,降低大模型应用门槛。视觉理解模型GLM-4V-Plus也全面升级,新版本在多个公开榜单上效果显著提升,支持变分辨率功能,适应不同尺寸图像输入,小图场景下显著降低token消耗,支持4K超清图像和极致长宽比图像的无损识别,具备长达2小时的视频理解能力,为长视频理解和分析提供高效精准解决方案。

智谱致力于大模型普惠,为助力开发者创新,专门设置了针对全社会免费开放的Flash系列普惠模型API。作为行业首个全模态的免费系列模型,开发者可免费调用语言、多模态理解、多模态生成功能。近期Flash系列将全面升级,成员包括语言模型GLM-4-Flash、图像理解模型GLM-4V-Flash、图像生成模型CogView-3-Flash、视频生成模型CogVideoX-Flash。