NVIDIA发布“声音魔法棒”Fugatto：用文字就能玩转音乐！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月26号 14:16

122

还记得科幻电影中，主角挥舞着魔法棒，就能随意操控声音的场景吗?现在，这种神奇的能力不再是幻想!NVIDIA 最新发布的AI模型Fugatto，就像一支“声音魔法棒”，让用户仅凭文字就能操控音乐、声音和语音，创造出各种奇妙的听觉效果。

Fugatto，全称为“Foundational Generative Audio Transformer Opus1”，是一款基于生成式AI技术的音频处理模型。与其他只能创作音乐或修改语音的AI模型不同，Fugatto 拥有更强大的能力，可以生成或转换任何音乐、语音和声音的混合体，并且能够理解并执行用户通过文本和音频文件输入的指令。

Fugatto 的强大功能让音乐制作人、广告公司、语言学习工具开发者和游戏开发者等各行各业的用户都为之惊叹。音乐制作人可以用它快速尝试不同的音乐风格、人声和乐器，甚至可以为现有的歌曲添加效果或提升音质。广告公司则可以用它为广告配音添加不同的口音和情绪，轻松地将广告推广到不同的地区和目标人群。语言学习工具开发者可以使用Fugatto 将课程内容转换成任何用户想要的声音，例如家人或朋友的声音，让学习更加个性化。游戏开发者则可以利用Fugatto 根据游戏进程实时修改游戏中的声音素材，或者根据文本指令和音频输入创建全新的游戏音效。

Fugatto 的神奇之处在于它能够像人类一样理解和生成声音。它不仅可以执行用户给出的具体指令，还能创造出前所未有的新声音。例如，它可以让小号发出狗叫声，让萨克斯风发出猫叫声，只要用户能够描述出来，Fugatto 就能创造出来。

音频声波

图源备注：图片由AI生成，图片授权服务商Midjourney

Fugatto 的另一项突破性能力是它可以将训练过程中单独学习到的指令组合起来，生成更复杂的效果。例如，用户可以要求它生成一段带有悲伤情绪的法语口音语音。更令人惊叹的是，Fugatto 还允许用户对指令进行细微的调整，例如控制口音的浓重程度或悲伤情绪的强烈程度，让用户能够像艺术家一样进行创作。

Fugatto 还能生成随时间变化的声音，例如一场暴风雨从远处逼近，雷声逐渐增强，然后慢慢消失在远方。用户可以精确地控制声音的变化过程，创造出各种生动的音效。

Fugatto 是一个由全球各地研究人员共同开发的成果，团队成员来自印度、巴西、中国、约旦和韩国等国家。他们多元化的背景让 Fugatto 拥有更强大的多口音和多语言处理能力。

Fugatto 的诞生是 NVIDIA 在语音建模、音频编码和音频理解等领域多年研究积累的结晶。它使用了25亿个参数，并在配备32个 NVIDIA H100Tensor Core GPU 的 NVIDIA DGX 系统集群上进行了训练。

Fugatto 的出现，标志着音频处理技术进入了一个全新的时代。它将为音乐、电影、游戏、教育等各个领域带来无限的可能性，让我们共同期待它创造出更多令人惊叹的听觉盛宴!

官方博客：https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

汤森路透赢得美国首例重大AI版权案件

近日，美国法院裁定汤森路透（Thomson Reuters）在一起涉及人工智能(AI)技术的版权案件中获得胜利。这一裁决标志着 AI 与版权权益之间的重要斗争，尤其是在生成式 AI 领域。这场官司的焦点在于，汤森路透指控某些 AI 公司在未获授权的情况下，使用其版权保护的数据进行训练，以生成类似的内容。法院的裁决结果，对于正在快速发展的生成式 AI 公司及其内容创作者来说，意义深远。许多生成式 AI 工具依赖于对大量数据进行学习，以便产生新内容。这就引发了是否可以合法使用受版权保护

Roblox、OpenAI 与谷歌共建儿童安全新组织，推动 AI 时代的在线保护

在当今的数字时代，儿童的在线安全问题愈发引起重视。近日，Roblox、Discord、OpenAI 与谷歌联合推出了一个名为 ROOST（强大开放在线安全工具）的非营利组织，旨在为 AI 时代构建一个可扩展且互联互通的安全基础设施。这个新组织的目标是为公共和私人机构提供开源安全工具，以帮助它们在自身平台上加强保护，特别关注儿童的安全。图源备注:图片由AI生成，图片授权服务商MidjourneyROOST 的成立是在对生成式 AI 快速发展的回应下。随着网络环境的变化，孩子们面临的风险日益增加，因此对

DeepSeek爆火背后，机构预测中国生成式AI市场规模到2029年将达98亿美元

市场调研机构 Omdia 发布了一份报告，指出中国生成式人工智能（GenAI）软件市场正迎来快速增长。报告显示，预计到2024年，中国的 GenAI 软件收入将达到18亿美元，约合131亿元人民币。这一市场仍处于起步阶段，但未来五年的发展潜力巨大，市场规模将增长5.5倍，预计到2029年，市场规模将增长至98亿美元，约714亿元人民币。Omdia 的报告强调，生成式 AI 技术的应用场景正在不断扩大，未来将涵盖更多行业和领域。该收入数据不包括其他关键技术，例如 AI 训练和推理芯片、服务器、数据中心建

亚马逊 CEO：AI 成本因 DeepSeek 技术大幅降低

近日，亚马逊首席执行官安迪・贾西在与分析师的电话会议中谈到了人工智能（AI）技术的发展及其成本问题。他表示，随着新技术的不断涌现，特别是 DeepSeek 等模型的推出，人工智能推理的成本将会显著下降。这一变化将使得更多企业能够轻松将 AI 应用于其业务中，尤其是在推理和生成式 AI 的领域。图源备注：图片由AI生成，图片授权服务商Midjourney贾西提到，最近有关 DeepSeek 的消息吸引了很多关注，他认为这一技术突破将会加速人工智能的整体需求增长。这与其他科技行业高管的看法

AI新闻资讯

NVIDIA发布“声音魔法棒”Fugatto：用文字就能玩转音乐！

AIbase基地

相关AI新闻推荐

​汤森路透赢得美国首例重大AI版权案件

​Roblox、OpenAI 与谷歌共建儿童安全新组织，推动 AI 时代的在线保护

DeepSeek爆火背后，机构预测中国生成式AI市场规模到2029年将达98亿美元

​亚马逊 CEO：AI 成本因 DeepSeek 技术大幅降低

汤森路透赢得美国首例重大AI版权案件

Roblox、OpenAI 与谷歌共建儿童安全新组织，推动 AI 时代的在线保护

亚马逊 CEO：AI 成本因 DeepSeek 技术大幅降低