微软在Windows11中计划推出“智能媒体搜索”功能,允许用户通过口语搜索已索引的本地视频或音频文件。此功能需用户同意扫描设备上的媒体文件,并在后台下载、安装AI模型进行转录和索引。目前功能仍在开发中,AI模型可能需要专用神经处理单元来处理运算。用户能否选择特定文件进行搜索仍有待明确,隐私问题因AI全面扫描媒体内容而引起关注。如果允许用户选择性处理,此功能可应用于会议或简报的高效转录,类似于Otter.ai等第三方云服务。
武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2。该数据集包含9904382个高质量音频片段及其相应的视频片段,来自YouTube上的111284名用户,是目前最大的公开可用的音视频说话人识别数据集。数据集的发布旨在丰富开源语音语料库,支持训练声纹大模型。
近日,NVIDIA宣布推出一款名为Broadcast的软件,旨在通过AI技术自动消除背景噪音和房间回声,并提供背景移除、替换和模糊等功能,令用户可以在不需要实际绿幕或复杂灯光设置的情况下,自定义背景。 利用AI技术提升音频和视频质量 Broadcast可以通过AI技术自动消除背景噪音和房间回声,确保音频输出清晰。
OpenAI 正在进行一系列的并购行动。在收购数据库技术公司 Rockset 之后,OpenAI 又收购了一个名为 Multi(以前叫做 Remotion)的初创公司,该公司正在开发一款面向企业的以视频为主的协作平台。知情人士透露,这次交易实际上是一次收购,Multi 的大部分团队将在交易结束后加入 OpenAI。