Stability AI 发布 AI 音乐生成工具 “Stable Audio”

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年9月20号 15:30

伦敦初创公司 Stability AI 发布了一款名为 Stable Audio 的 AI 音乐生成工具，通过潜在扩散技术，可以生成长达 90 秒的高质量商业音乐。Stability AI 与商业音乐库 AudioSparx 合作，为 Stable Audio 提供了约 80 万首音乐，用户可以选择多种订阅计划，生成商业音乐并与音乐库合作分享收益。

字节开源嘴型同步模型LatentSync，实现超真实口型同步

近日，字节跳动发布了名为 LatentSync 的新型口型同步框架，旨在利用音频条件潜在扩散模型实现更精确的口型同步。该框架基于Stable Diffusion，针对时间一致性做了优化。与以往的基于像素空间扩散或两阶段生成的方法不同，LatentSync 采用端到端的方式，无需中间运动表示，能够直接建模复杂的音频与视觉之间的关系。在 LatentSync 的框架中，首先使用 Whisper 将音频频谱图转换为音频嵌入，并通过交叉注意力层将其集成到 U-Net 模型中。框架通过将参考帧和掩码帧与噪声潜在变量进行通道级拼接

阿里团队出品！妆容迁移技术SHMT：提供化妆参考图就能给你上妆

近日，阿里巴巴达摩院的研究团队发布了一项重要研究成果，名为 “SHMT:自监督层次化妆转移”，该论文已被国际顶级学术会议 NeurIPS2024接收。这项研究展示了一种新的化妆效果转移技术，利用潜在扩散模型（Latent Diffusion Models）来实现化妆图像的精准生成，为化妆应用和图像处理领域注入了新活力。简单的说，SHMT是一项妆容迁移技术，只要一个化妆的参考图，和一张目标角色照片，就可以把妆容效果迁移到该目标脸上。团队在项目中采用了开源的方式，发布了训练代码、测试代码以及预

Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频

Stability AI近推出开源音频生成模型Stable Audio Open，能生成最长47秒，采样率44.1kHz，采用开放权重设计，允许用户查阅、修改和扩展，推动科研及开发者创新。使用Creative Commons许可音频训练确保数据合法和道德性。模型技术架构先进，支持高质量立体声生成，多样性和高保真度得到验证，与顶尖模型表现相当。这一工具对研究者、艺术家和开发者极具价值，标志着音频生成领域的重要进展。

Stability AI推出Stable Assistant新功能增强创意与视觉体验

Stability AI公司更新稳定助手功能，新增「搜索与替换」与「Stable Audio」，增强图像编辑能力和音乐创作功能。搜索与替换功能允许用户在上传图像中替换指定对象，提升创意编辑效率。Stable Audio则专注于生成高质量音乐，为用户提供个性化创作选项。此次更新使Stable Assistant更加强大，不仅在图像编辑功能上得到提升，还在音乐创作领域展现新亮点。用户可享受3天免费试用，持续关注公司动态和参与Discord社区，体验平台最新功能带来的创新可能。该更新进一步巩固了Stability AI在图像与音频生成技术领域的领先优势。

AI新闻资讯