Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年7月23号 10:05

159

最近，Stability AI 团队推出了一款全新的开源音频生成模型，名为 Stable Audio Open。这款模型的特别之处在于，它能够从文本提示生成时长可达47秒的立体声音频，采样率高达44.1kHz。

产品入口：https://top.aibase.com/tool/stable-audio-open-demo

与许多当前流行的音频生成模型不同，Stable Audio Open 的权重是开放的，这意味着任何人都可以查看、修改和扩展这个模型。这样的设计理念不仅推动了科学研究的进展，也为开发者提供了更多的可能性。更重要的是，这款模型只使用了获得 Creative Commons 许可的音频文件进行训练，这样不仅确保了数据的合法性，还避免了潜在的版权问题，体现了对道德数据使用的高度重视。

在技术架构方面，Stable Audio Open 采用了先进的架构，确保了文本转音频生成的高保真度。它可以生成高质量的立体声音频，这让用户能够享受到清晰且真实的声音体验。在训练过程中，模型接触了多种多样的音频样本，这也帮助它学习到了更丰富的音景，使得生成的音频更加真实多样。

此外，为了确保新模型的表现能与行业顶尖模型相媲美，开发团队进行了全面的性能评估。通过 FDopenl3这一关键评估指标，研究人员发现该模型在生成高质量音频方面表现不俗，与业界的其他优秀模型相当。这个对比研究进一步证明了 Stable Audio Open 的优越性和实用性。

Stable Audio Open 的推出不仅关注开放性和高质量的音频合成，还为研究者、艺术家和开发者提供了一个重要的工具。

划重点:
- 🎧 Stability AI发布了Stable Audio Open，一个支持生成变长（最长47秒）、44.1kHz立体声音频的开源模型。
- 📝 该模型仅使用了Creative Commons许可的音频数据进行训练，确保数据的合法性与道德性。
- 🔍 与业界顶尖模型相比，Stable Audio Open的音频生成质量经过验证，具备高保真度和多样性。

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数，展示了模型生成的音乐样本，涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。

日本超市开始用AI技术监控员工微笑网友直呼大可不必

日本永旺超市利用AI系统"Smile-Kun"监控员工微笑，旨在通过量化员工的微笑及声音分析，提升服务技能。该系统要求员工通过特定方式打招呼，依据450个微表情点评分，满分为100分，并实时反馈，此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而，此举引发争议，部分网友批评做法过度量化员工个性情感，难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率，但需考虑如何在追求效时兼顾员工感受与尊严，反思员工服务的真实性和人性化管理。

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2，预计12月推出更强大的Grok3，该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练，但如ChatGPT对比显示Grok在某些方面仍见不足，밤收购语境下的追赶仍需时间。

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

小红书近日上线“科技薯”账号，启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作，提供AI前沿应用、干货、情感体验等内容，该便利店内售卖包括@赵纯想等人的创意AI产品，例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动，邀请笔记写手用 "#AI便利店" 发布AI相关笔记，可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容，还通过激励机制催生更多AI创意内容。

AI新闻资讯

Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频

AIbase基地

相关AI新闻推荐

​AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑 网友直呼大可不必

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑网友直呼大可不必