Sora Opera:AI视频配音工具Sora Opera发布

近日,英国人工智能视频生成公司 Synthesia 宣布完成1.8亿美元的 D 轮融资。自2017年成立以来,Synthesia 已经成为行业内的佼佼者,服务超过一半的《财富》100强企业,每月制作数百万分钟的 AI 生成视频内容。公司致力于帮助企业高效地创建视频和虚拟头像,提升他们的沟通效率和内容传播能力。获得这笔资金后,Synthesia 计划进一步开发新功能,将 AI 虚拟头像与大型语言模型结合,推出全新的视频播放器。公司表示,这些升级将使客户能够制作更加互动和个性化的视频内容,以满足日益增长
在人工智能领域,文本音频生成技术正逐渐成为研究的热点。最近,研究者们推出了一款名为 TANGOFLUX 的全新模型,该模型在性能和效率上均表现出色。TANGOFLUX 是一种高效的文本到音频生成模型,拥有515百万个参数,能够在短短3.7秒内生成最长可达30秒的44.1kHz 音频,这一速度让其在单个 A40GPU 上的表现非常出色。TANGOFLUX主要是特色是可以生成各种音效,例如鸟叫、口哨、爆炸等声音,另外也支持生成音乐不过效果就不那么理想了。文本音频生成模型的一个主要挑战在于如何创建偏好配对。
日前,QQ 音乐正式推出14.0版本,带来了令人期待的全新功能和体验。在这一版本中,更是发布了首个AI大模型音效,智能匹配听歌音效。据了解,这一音效由 QQ 音乐天琴实验室与银河音效团队共同研发,通过分析音乐音频的音色、音质和空间感等维度,为用户提供个性化的听觉体验。比如用户在播放《孤勇者》时,可以感受到主歌部分的3D 环绕音效所带来的空间层次感,而副歌的近场环绕则让氛围更加增强。大模型音效将覆盖 QQ 音乐站内 Top100万的热播歌曲,进一步提升用户的听歌体验。
近日,Adobe Research 与西北大学合作开发了一款名为 Sketch2Sound 的人工智能系统,这一工具有望彻底改变声音设计师的工作方式。Sketch2Sound 能够让用户通过哼唱、模仿声音以及用简单的文本描述来创建专业的音效和氛围音。这个系统分析了用户声带输入的三个关键要素:音量、音色(决定声音的明亮或阴暗)和音高。随后,它将这些特征与用户的文本描述相结合,从而生成所需的声音。例如,用户在输入 “森林氛围” 并发出短促的声响时,系统会自动将这些声响识别为鸟鸣,而无需具体的指