1月20日,商汤科技宣布其“日日新融合大模型交互版”(SenseNova-5o)正式对外提供实时音视频对话服务,并限时免费开放给用户使用。这一交互版本的发布,标志着商汤在人工智能领域的又一重要进展,旨在通过强大的实时交互、视觉识别、记忆思考和复杂推理能力,推动AI与人类更自然、更流畅的交流。
阿里云百炼大模型服务平台最近推出了“音视频实时互动”功能,使用户能够轻松搭建多模态AI应用,无需编程知识。这一新功能使得用户可以快速将AI模型集成到Web、iOS和Android应用中,并与他人分享。用户可以通过简单的步骤来搭建智能体应用:首先新建智能体应用,然后在阿里云百炼平台上选择并配置所需的文本、语音或视觉理解大模型。平台提供了200多种大模型,包括具备强大视觉智能体能力的阿里云Qwen2-VL大模型。接下来,用户需要编写提示词,设置音视频API-KEY,并发布自己的专属AI应用。
微软在Windows11中计划推出“智能媒体搜索”功能,允许用户通过口语搜索已索引的本地视频或音频文件。此功能需用户同意扫描设备上的媒体文件,并在后台下载、安装AI模型进行转录和索引。目前功能仍在开发中,AI模型可能需要专用神经处理单元来处理运算。用户能否选择特定文件进行搜索仍有待明确,隐私问题因AI全面扫描媒体内容而引起关注。如果允许用户选择性处理,此功能可应用于会议或简报的高效转录,类似于Otter.ai等第三方云服务。
武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2。该数据集包含9904382个高质量音频片段及其相应的视频片段,来自YouTube上的111284名用户,是目前最大的公开可用的音视频说话人识别数据集。数据集的发布旨在丰富开源语音语料库,支持训练声纹大模型。