一站式音视频生产协作平台 “分秒帧” 提供在线审片批注等功能

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年10月16号 18:02

一站式音视频生产协作平台 “分秒帧” 提供在线审片批注等功能，旨在提高团队的审改效率和出片效率，降低人力消耗。该平台适用于广告、传媒、教育、游戏、影视等多个领域，并已为超过 100 万创作者和 3000 + 企业提供服务。

商汤日日新融合大模型交互版开放商用实时音视频对话限时免费

1月20日，商汤科技宣布其“日日新融合大模型交互版”（SenseNova-5o）正式对外提供实时音视频对话服务，并限时免费开放给用户使用。这一交互版本的发布，标志着商汤在人工智能领域的又一重要进展，旨在通过强大的实时交互、视觉识别、记忆思考和复杂推理能力，推动AI与人类更自然、更流畅的交流。

轻松搭建多模态AI应用！阿里云百炼大模型服务平台上线「音视频实时互动」功能

阿里云百炼大模型服务平台最近推出了“音视频实时互动”功能，使用户能够轻松搭建多模态AI应用，无需编程知识。这一新功能使得用户可以快速将AI模型集成到Web、iOS和Android应用中，并与他人分享。用户可以通过简单的步骤来搭建智能体应用:首先新建智能体应用，然后在阿里云百炼平台上选择并配置所需的文本、语音或视觉理解大模型。平台提供了200多种大模型，包括具备强大视觉智能体能力的阿里云Qwen2-VL大模型。接下来，用户需要编写提示词，设置音视频API-KEY，并发布自己的专属AI应用。

Windows 11或将引入 “智能媒体搜索”，音视频文件秒变可搜索

微软在Windows11中计划推出“智能媒体搜索”功能，允许用户通过口语搜索已索引的本地视频或音频文件。此功能需用户同意扫描设备上的媒体文件，并在后台下载、安装AI模型进行转录和索引。目前功能仍在开发中，AI模型可能需要专用神经处理单元来处理运算。用户能否选择特定文件进行搜索仍有待明确，隐私问题因AI全面扫描媒体内容而引起关注。如果允许用户选择性处理，此功能可应用于会议或简报的高效转录，类似于Otter.ai等第三方云服务。

武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2。该数据集包含9904382个高质量音频片段及其相应的视频片段，来自YouTube上的111284名用户，是目前最大的公开可用的音视频说话人识别数据集。数据集的发布旨在丰富开源语音语料库，支持训练声纹大模型。

AI新闻资讯