北京智谱华章科技有限公司在2024年8月29日宣布了一系列重要的技术更新,包括新一代基座模型的发布和新的应用服务。
在KDD2024大会上,智谱发布了包括语言模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus和视频生成模型CogVideoX在内的新一代基座模型。这些模型在各自领域均达到了国际领先水平。
GLM-4-Plus模型在语言理解、指令遵循和长文本处理等方面性能全面提升,与GPT-4o等第一梯队模型持平。CogView-3-Plus模型采用Transformer架构替代传统UNet架构,优化了模型效果,性能接近MJ-V6和FLUX等一线水平模型。GLM-4V-Plus模型具备高质量的图像理解和视频理解能力,成为国内首个通用视频理解模型API。CogVideoX模型在发布2B版本后,进一步开源了5B版本,性能增强,成为当前开源视频生成模型中的佼佼者。
此外,智谱在「清言APP」上推出了国内首个面向C端用户的视频通话服务,该服务跨越文本、音频和视频模态,并具备实时推理能力,为用户提供了流畅的互动体验。
智谱还宣布了GLM-4-Flash API的免费使用,该API在速度和性能上具有优势,支持用户快速且免费地构建专属模型和应用。同时,为了满足不同用户的需求,智谱提供了模型微调功能。
智谱表示将继续前行,让机器像人一样思考,为用户带来更先进的技术和服务。
主要更新:
语言基座模型GLM-4-Plus:在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。
文生图基座模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。
图像/视频理解基座模型 GLM-4V-Plus:具备卓越的图像理解能力,并具备基于时间感知的视频理解能力。该模型将上线开放平台(bigmodel.cn),并成为国内首个通用视频理解模型 API。
视频生成基座模型 CogVideoX:在发布并开源2B 版本后,5B 版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。
「清言 APP」上线视频通话:国内首个面向C端用户开放的视频通话服务,「清言 APP」的视频通话功能跨越了文本、音频和视频模态,并具备实时推理能力。
GLM-4-Flash API:推理服务完全免费,并提供微调服务。
视频通话服务申请链接:
https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf