Stability AI 发布 AI 音乐生成工具 “Stable Audio”

近日,字节跳动发布了名为 LatentSync 的新型口型同步框架,旨在利用音频条件潜在扩散模型实现更精确的口型同步。该框架基于Stable Diffusion,针对时间一致性做了优化。与以往的基于像素空间扩散或两阶段生成的方法不同,LatentSync 采用端到端的方式,无需中间运动表示,能够直接建模复杂的音频与视觉之间的关系。在 LatentSync 的框架中,首先使用 Whisper 将音频频谱图转换为音频嵌入,并通过交叉注意力层将其集成到 U-Net 模型中。框架通过将参考帧和掩码帧与噪声潜在变量进行通道级拼接
近日,阿里巴巴达摩院的研究团队发布了一项重要研究成果,名为 “SHMT:自监督层次化妆转移”,该论文已被国际顶级学术会议 NeurIPS2024接收。这项研究展示了一种新的化妆效果转移技术,利用潜在扩散模型(Latent Diffusion Models)来实现化妆图像的精准生成,为化妆应用和图像处理领域注入了新活力。简单的说,SHMT是一项妆容迁移技术,只要一个化妆的参考图,和一张目标角色照片,就可以把妆容效果迁移到该目标脸上。团队在项目中采用了开源的方式,发布了训练代码、测试代码以及预
Stability AI近推出开源音频生成模型Stable Audio Open,能生成最长47秒,采样率44.1kHz,采用开放权重设计,允许用户查阅、修改和扩展,推动科研及开发者创新。使用Creative Commons许可音频训练确保数据合法和道德性。模型技术架构先进,支持高质量立体声生成,多样性和高保真度得到验证,与顶尖模型表现相当。这一工具对研究者、艺术家和开发者极具价值,标志着音频生成领域的重要进展。
Stability AI公司更新稳定助手功能,新增「搜索与替换」与「Stable Audio」,增强图像编辑能力和音乐创作功能。搜索与替换功能允许用户在上传图像中替换指定对象,提升创意编辑效率。Stable Audio则专注于生成高质量音乐,为用户提供个性化创作选项。此次更新使Stable Assistant更加强大,不仅在图像编辑功能上得到提升,还在音乐创作领域展现新亮点。用户可享受3天免费试用,持续关注公司动态和参与Discord社区,体验平台最新功能带来的创新可能。该更新进一步巩固了Stability AI在图像与音频生成技术领域的领先优势。