最近,Stability AI 团队推出了一款全新的开源音频生成模型,名为 Stable Audio Open。这款模型的特别之处在于,它能够从文本提示生成时长可达47秒的立体声音频,采样率高达44.1kHz。
产品入口:https://top.aibase.com/tool/stable-audio-open-demo
与许多当前流行的音频生成模型不同,Stable Audio Open 的权重是开放的,这意味着任何人都可以查看、修改和扩展这个模型。这样的设计理念不仅推动了科学研究的进展,也为开发者提供了更多的可能性。更重要的是,这款模型只使用了获得 Creative Commons 许可的音频文件进行训练,这样不仅确保了数据的合法性,还避免了潜在的版权问题,体现了对道德数据使用的高度重视。
在技术架构方面,Stable Audio Open 采用了先进的架构,确保了文本转音频生成的高保真度。它可以生成高质量的立体声音频,这让用户能够享受到清晰且真实的声音体验。在训练过程中,模型接触了多种多样的音频样本,这也帮助它学习到了更丰富的音景,使得生成的音频更加真实多样。
此外,为了确保新模型的表现能与行业顶尖模型相媲美,开发团队进行了全面的性能评估。通过 FDopenl3这一关键评估指标,研究人员发现该模型在生成高质量音频方面表现不俗,与业界的其他优秀模型相当。这个对比研究进一步证明了 Stable Audio Open 的优越性和实用性。
Stable Audio Open 的推出不仅关注开放性和高质量的音频合成,还为研究者、艺术家和开发者提供了一个重要的工具。
划重点:
- 🎧 Stability AI发布了Stable Audio Open,一个支持生成变长(最长47秒)、44.1kHz立体声音频的开源模型。
- 📝 该模型仅使用了Creative Commons许可的音频数据进行训练,确保数据的合法性与道德性。
- 🔍 与业界顶尖模型相比,Stable Audio Open的音频生成质量经过验证,具备高保真度和多样性。