最近,Adobe 研究团队与密歇根大学的研究人员联合开发了一款名为 MultiFoley 的人工智能系统,这款系统能够生成电影和视频中的配音音效,助力后期制作。

MultiFoley 的创新之处在于它允许用户通过文字提示、参考音频或视频示例来创造音效。在演示中,该系统甚至能将猫的叫声转化为狮子的吼叫,或将打字机的声音转换为钢琴音符,并与视频画面完美同步。

MultiFoley 的音频输出质量达到48kHz 的高带宽,这主要得益于研究人员使用互联网上的视频和专业音效库进行训练。与以往的系统不同,MultiFoley 首次将多种输入方式 —— 文本、音频和视频参考 —— 整合到同一模型中。它通过分析每秒8帧的视觉特征,并将其放大以匹配40Hz 的音频采样率,确保生成的音频与视频保持紧密同步。

image.png

在测试中,MultiFoley 在音频与视频的同步和音效与文本描述的匹配方面表现出色,平均同步精度达到了0.8秒,显著优于传统系统通常超过一秒的延迟。用户研究显示,85.8% 的参与者认为 MultiFoley 在语义一致性方面优于第二名,而94.5% 的参与者更喜欢它的同步效果。

image.png

尽管 MultiFoley 展现出了强大的潜力,但研究团队也指出目前的一些局限性,例如训练数据相对较小,这限制了它的音效种类。同时,系统在生成多个同时音效时也存在一定困难。研究团队计划不久后发布源代码和模型。

虽然 Adobe 尚未宣布将 MultiFoley 纳入其产品中,但这一技术与 Adobe Premiere Pro 视频编辑软件中现有的人工智能功能非常契合,有望为个人创作者和制作公司在音效设计流程中带来便利。

划重点:  

🎬 MultiFoley 是 Adobe 与密歇根大学合作开发的一款 AI 音效生成系统,可通过多种输入方式生成音效。  

🔊 该系统的音频输出质量达到48kHz,平均同步精度为0.8秒,优于传统音效系统。  

📈 用户研究显示,MultiFoley 在音效的语义一致性和同步效果方面都获得了高评价。