近日,约翰霍普金斯大学与腾讯 AI 实验室联合推出了一款名为 EzAudio 的新型文本到音频生成模型。这项技术承诺以空前的效率和高品质文本转换为声音,标志着人工智能和音频技术的重大飞跃。

image.png

EzAudio 的工作原理是利用音频波形的潜在空间,而不是传统的声谱图,这一创新让它能够在高时间分辨率下工作,且无需额外的神经声码器。

EzAudio 的架构被称为 EzAudio-DiT(扩散变换器),采用了多项技术创新来提高性能和效率。其中包括一种新的自适应层归一化技术 AdaLN-SOLA、长跳连接,以及先进的位置编码技术如 RoPE(旋转位置嵌入)。

研究人员表示,EzAudio 生成的音频样本非常逼真,客观和主观评估均优于现有的开源模型。

目前,AI 音频生成市场正快速增长。像 ElevenLabs 这样的知名公司最近推出了一款 iOS 应用,用于文本转语音的转换,显示出消费者对 AI 音频工具的浓厚兴趣。同时,微软和谷歌等科技巨头也在不断加大对 AI 语音模拟技术的投资。

根据 Gartner 的预测,到2027年,40% 的生成式 AI 解决方案将会是多模态的,结合文本、图像和音频的能力,这意味着 EzAudio 这样的高质量音频生成模型可能会在不断演变的 AI 领域中发挥重要作用。

EzAudio 团队已经公开了他们的代码、数据集和模型检查点,强调了透明性,并鼓励该领域的进一步研究。

研究人员认为 EzAudio 的应用可能超越声音效果生成,涉及语音和音乐制作等领域。随着技术的不断进步,它有望在娱乐、媒体、辅助服务和虚拟助手等行业中得到广泛应用。

demo:https://huggingface.co/spaces/OpenSound/EzAudio

项目入口:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

划重点:

🌟 EzAudio 是由约翰霍普金斯大学与腾讯合作推出的新型文本转音频生成模型,标志着音频技术的一次重大进步。

🎧 该模型通过创新的架构和技术,生成的音频样本在质量上优于现有开源模型,具备广泛的应用潜力。

⚖️ 随着技术的发展,伦理和责任使用的问题逐渐突显,EzAudio 的公开研究代码也为未来的风险与收益提供了广泛的检验机会。