Adobe Research与西北大学联合开发出一项突破性的AI系统Sketch2Sound,该技术能将简单的人声模仿和文字描述转化为专业级音效,有望彻底改变声音设计行业的工作方式。
该系统会分析语音输入的三个关键元素:响度、音色(决定声音的明亮程度)和音调。然后,系统会将这些特征与文本描述相结合,生成所需的声音。
视频:García 等人,Adobe Research
Sketch2Sound 的有趣之处在于它能够理解上下文。例如,如果有人输入“森林氛围”并发出短促的声音,系统会自动识别出这些声音应该是鸟叫声 - 而无需特定指令。
同样的智能也适用于音乐。在创建鼓点模式时,用户可以输入“低音鼓、小军鼓”,然后使用低音和高音哼唱节奏。系统会自动将低音鼓放在低音上,将小军鼓放在高音上。
为专业人士提供精细控制
研究团队内置了特殊的过滤技术,让用户可以调整控制生成声音的精确度。声音设计师可以根据自己的需求选择精确、细致的控制或更轻松、近似的方法。
这种灵活性使得 Sketch2Sound 对于拟音师(为电影和电视节目制作音效的专业人士)来说特别有价值。他们无需操纵物理对象来发出声音,而是可以通过语音和文本描述更快地创建效果。
研究人员指出,输入录音的空间音频特性有时会以不想要的方式影响生成的声音,但他们正在努力解决这个问题。Adobe 尚未宣布 Sketch2Sound 何时或是否会成为商业产品。