近日,由香港科技大学与音乐领域的 DeepSeek 合作开发的开源音乐生成模型 YuE 正式发布,震惊了不少乐迷和音乐创作者。这一模型不仅能够生成多种风格的音乐,还可以模拟人声,给听众带来全新的音乐体验。

YuE 的特点在于其双 LLaMA 语言模型架构,这使其能够无缝适配各种大语言模型,并且能够处理长达5分钟的完整歌曲。这一创新的设计让 YuE 在音乐生成的质量上达到了前所未有的高度,甚至与市场上著名的闭源音乐生成工具 Suno 和 Udio 相抗衡。YuE 可以同时生成专业级的歌声和伴奏,实现了音乐创作的端到端生成。

image.png

研究团队在 YuE 中引入了 “双轨版下一 token 预测” 策略,将人声和伴奏轨道分开建模,确保了音乐创作中的细腻度和一致性。这一方法不仅提升了音质,还显著减少了内容重构过程中的信息损失。此外,YuE 的 “结构化渐进生成” 技术让歌曲的主副歌段落能够在同一上下文中交替进行,进一步提高了歌曲的连贯性。

为了避免抄袭,YuE 还开发了独特的音乐上下文学习技术,这让模型在创作时能够从已有的音乐片段中学习而不重复。这一创新不仅提高了模型的音乐性,还增强了其创作的独特性。最终,YuE 在多项评测中展现出卓越的表现,成功赢得了用户的好评。

随着 YuE 的发布,音乐创作的未来将更加充满可能性。无论你是专业音乐人还是业余爱好者,都可以在这个平台上体验 AI 带来的音乐创作乐趣。

项目地址:https://github.com/multimodal-art-projection/YuE