还记得科幻电影中,主角挥舞着魔法棒,就能随意操控声音的场景吗?现在,这种神奇的能力不再是幻想!NVIDIA 最新发布的AI模型Fugatto,就像一支“声音魔法棒”,让用户仅凭文字就能操控音乐、声音和语音,创造出各种奇妙的听觉效果。
Fugatto,全称为“Foundational Generative Audio Transformer Opus1”,是一款基于生成式AI技术的音频处理模型。与其他只能创作音乐或修改语音的AI模型不同,Fugatto 拥有更强大的能力,可以生成或转换任何音乐、语音和声音的混合体,并且能够理解并执行用户通过文本和音频文件输入的指令。
Fugatto 的强大功能让音乐制作人、广告公司、语言学习工具开发者和游戏开发者等各行各业的用户都为之惊叹。 音乐制作人可以用它快速尝试不同的音乐风格、人声和乐器,甚至可以为现有的歌曲添加效果或提升音质。 广告公司则可以用它为广告配音添加不同的口音和情绪,轻松地将广告推广到不同的地区和目标人群。 语言学习工具开发者可以使用Fugatto 将课程内容转换成任何用户想要的声音,例如家人或朋友的声音,让学习更加个性化。 游戏开发者则可以利用Fugatto 根据游戏进程实时修改游戏中的声音素材,或者根据文本指令和音频输入创建全新的游戏音效。
Fugatto 的神奇之处在于它能够像人类一样理解和生成声音。 它不仅可以执行用户给出的具体指令,还能创造出前所未有的新声音。例如,它可以让小号发出狗叫声,让萨克斯风发出猫叫声,只要用户能够描述出来,Fugatto 就能创造出来。
图源备注:图片由AI生成,图片授权服务商Midjourney
Fugatto 的另一项突破性能力是它可以将训练过程中单独学习到的指令组合起来,生成更复杂的效果。 例如,用户可以要求它生成一段带有悲伤情绪的法语口音语音。 更令人惊叹的是,Fugatto 还允许用户对指令进行细微的调整,例如控制口音的浓重程度或悲伤情绪的强烈程度,让用户能够像艺术家一样进行创作。
Fugatto 还能生成随时间变化的声音,例如一场暴风雨从远处逼近,雷声逐渐增强,然后慢慢消失在远方。 用户可以精确地控制声音的变化过程,创造出各种生动的音效。
Fugatto 是一个由全球各地研究人员共同开发的成果,团队成员来自印度、巴西、中国、约旦和韩国等国家。 他们多元化的背景让 Fugatto 拥有更强大的多口音和多语言处理能力。
Fugatto 的诞生是 NVIDIA 在语音建模、音频编码和音频理解等领域多年研究积累的结晶。 它使用了25亿个参数,并在配备32个 NVIDIA H100Tensor Core GPU 的 NVIDIA DGX 系统集群上进行了训练。
Fugatto 的出现,标志着音频处理技术进入了一个全新的时代。它将为音乐、电影、游戏、教育等各个领域带来无限的可能性,让我们共同期待它创造出更多令人惊叹的听觉盛宴!
官方博客:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/