开源版Suno来了！AI音乐生成模型YuE可生成专业级的歌声和伴奏

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Mar 28, 2025

552

近日，由香港科技大学与音乐领域的 DeepSeek 合作开发的开源音乐生成模型 YuE 正式发布，震惊了不少乐迷和音乐创作者。这一模型不仅能够生成多种风格的音乐，还可以模拟人声，给听众带来全新的音乐体验。

YuE 的特点在于其双 LLaMA 语言模型架构，这使其能够无缝适配各种大语言模型，并且能够处理长达5分钟的完整歌曲。这一创新的设计让 YuE 在音乐生成的质量上达到了前所未有的高度，甚至与市场上著名的闭源音乐生成工具 Suno 和 Udio 相抗衡。YuE 可以同时生成专业级的歌声和伴奏，实现了音乐创作的端到端生成。

研究团队在 YuE 中引入了 “双轨版下一 token 预测” 策略，将人声和伴奏轨道分开建模，确保了音乐创作中的细腻度和一致性。这一方法不仅提升了音质，还显著减少了内容重构过程中的信息损失。此外，YuE 的 “结构化渐进生成” 技术让歌曲的主副歌段落能够在同一上下文中交替进行，进一步提高了歌曲的连贯性。

为了避免抄袭，YuE 还开发了独特的音乐上下文学习技术，这让模型在创作时能够从已有的音乐片段中学习而不重复。这一创新不仅提高了模型的音乐性，还增强了其创作的独特性。最终，YuE 在多项评测中展现出卓越的表现，成功赢得了用户的好评。

随着 YuE 的发布，音乐创作的未来将更加充满可能性。无论你是专业音乐人还是业余爱好者，都可以在这个平台上体验 AI 带来的音乐创作乐趣。

项目地址:https://github.com/multimodal-art-projection/YuE

YuE LLaMA 音乐生成模型开源

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Google 发布 TxGemma 开源模型，助力加速治疗性药物研发

近日，谷歌宣布推出全新开源模型 TxGemma，专为提升治疗性药物的研发效率而设计。这一模型由谷歌 DeepMind 团队基于其先进的 Gemma 模型家族微调开发，融合了强大的语言理解、科学预测以及多轮对话功能，旨在为药物研发领域带来革命性的突破。TxGemma 的发布被视为人工智能技术在生物医药领域的重要进展，有望大幅缩短药物从实验室到临床的周期，同时降低高昂的研发成本和失败率。全流程支持药物研发TxGemma 的核心优势在于其能够模拟药物研发的完整流程，从早期药物筛选到后期临床

2025年3月31号 11:05

550

研究发现:RAG系统中文档数量影响AI语言模型性能

耶路撒冷希伯来大学的研究人员最近发现，在检索增强生成（RAG）系统中，即使总文本长度保持不变，处理的文档数量也会显著影响语言模型的性能。研究团队利用MuSiQue验证数据集中的2，417个问题进行实验，每个问题链接到20个维基百科段落。其中两到四段包含相关答案信息，其余段落作为干扰项。为研究文档数量的影响，团队创建了多个数据分区，逐步将文档数量从20个减少到最少只保留包含相关信息的2-4个文档。为确保总标记数一致，研究人员使用原始维基百科文章的文本扩展了保留

2025年3月31号 10:42

1.1k

Nvidia 推出 G-Assist：本地运行的 AI 助手为玩家提供全方位支持

Nvidia 最近发布了其实验性 AI 助手 Project G-Assist，该工具可以在 GeForce RTX 卡上本地运行。这一发布是在2024年 Computex 展会上的首次预览后进行的标志着科技公司在为玩家开发专用 AI 助手方面迈出了重要一步。例如微软也在开发一款名为 “Gaming C o p i l o t” 的助手，最初将提供游戏技巧的聊天支持，并计划在后续更新中实时分析游戏场景。G-Assist 与许多需要互联网连接和订阅服务的云端 AI 助手不同，它完全依赖于用户的 GeForce RTX GPU 来运行。该助手使用了基于 Llama 的8亿参数模型，通过按下

2025年3月28号 11:51

2.0k

AI “看图说话” 更懂细节！腾讯开源多模态理解技术HaploVL

腾讯开源团队宣布推出了一项创新的多模态理解技术——HaploVL。这一技术旨在通过单个Transformer架构实现高效的多模态融合，显著提升AI在视觉和语言交互中的表现，特别是在细粒度视觉理解任务上。

2025年3月27号 17:36

2.1k

AI日报：淘宝全平台启动AI假图治理；OpenAI官宣支持MCP协议；阿里开源全模态模型Qwen2.5-Omni

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni阿里云通义千问团队推出了Qwen2.5-Omni，这是一个新一代的多模态旗舰模型，旨在实现文本、图像、音频和视频的无缝处理。这项技术为视频生成领域带来了新的发展机遇，尤其是在文本到视频生成等应用场景中，展现了巨大的潜力。

2025年3月27号 15:23

310

开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

近日，数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO（Test-time Adaptive Optimization），这一技术的出现为开源模型的发展带来了新的希望。通过运用无标注数据和强化学习，TAO 不仅在降低企业成本方面表现出色，更是在一系列基准测试中取得了令人瞩目的成绩。根据科技媒体 NeoWin 的报道，TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中，展现出了优于传统标注微调方法的性能，甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品

2025年3月27号 14:39

2.1k

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

2025年3月27号 8:21

2.9k

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

近日，清华大学的研究团队开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放（Test-Time Scaling， TTS），旨在通过在视频生成过程的推理阶段投入更多的计算资源，显著提升生成视频的质量和与文本提示的一致性，而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。何为“测试时缩放”?在大型语言模型（LLMs）领域，研究人员已经发现，通过在测试阶段增加计算量可以有效提升模型性能。Video-T1借鉴了这一思路，并将其应用于视频生成

2025年3月26号 14:30

4.4k

Together AI 推出全新聊天机器人服务，支持多种开源模型与搜索功能

近日，Together AI 宣布推出其全新的聊天机器人服务，为用户提供多样化的AI交互体验。据悉，该服务整合了包括 R1、Qwen 和 FLUX 在内的一系列开源模型，旨在通过强大的计算能力和开放性，为开发者与普通用户带来高效、智能的解决方案。此次推出的聊天机器人服务不仅支持多模态交互，还特别加入了搜索功能，用户可以通过自然语言查询快速获取网络信息。这一功能依托于 Together AI 的高效推理引擎和 GPU 集群，确保响应速度快且结果准确。R1模型以其推理能力著称，Qwen 则在语言处理上表

2025年3月25号 10:56

1.6k

开源实时识别模型RF-DETR：实时识别画面中的物体，开源可商用

RF-DETR是一款由Roboflow团队倾力打造的开源、最先进的实时目标检测模型。如果你还在为YOLO系列跑得不够快，或者精度差那么一点点而挠头，那么恭喜你，救星来了!RF-DETR目标直指实时识别领域的王座，并且它还非常慷慨地选择了开源，这意味着你可以免费拥有，甚至还能“魔改”出自己的专属“鹰眼”。想象一下，你的智能监控系统能够像一位经验老道的侦探一样，在视频流中瞬间捕捉到每一个关键物体，而且速度快到让你怀疑人生。RF-DETR就是这样一位高效的“侦探”。它不仅在速度上媲

2025年3月24号 10:55

3.8k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图