阿里通义实验室语音生成大模型CosyVoice升级2.0版本

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月16号 10:54

606

阿里巴巴通义实验室语音团队宣布，其开源的语音生成大模型CosyVoice已升级至2.0版本，这一升级标志着语音生成技术在准确性、稳定性和自然体验方面的显著进步。CosyVoice2.0通过采用离线和流式一体化建模的语音生成大模型技术，实现了双向流式语音合成，首包合成延迟可达到150ms，显著提升了语音合成的响应速度。

微信截图_20241216105354.png

在发音准确性方面，CosyVoice2.0相比于前一版本错误率下降了30%至50%，在Seed-TTS测试集的hard测试集上取得了当前最低的字错误率，尤其在合成绕口令、多音字、生僻字方面表现出色。此外，2.0版本在零样本语音生成和跨语言语音合成上保持了音色一致性，特别是跨语言语音合成能力相较于1.0版本有了明显提升。

CosyVoice2.0在合成音频的韵律、音质、情感匹配方面也有所增强，MOS评测分从5.4提升至5.53，接近某商业化语音合成大模型的评分。同时，2.0版本支持更多细粒度的情感控制和方言口音控制，为用户提供了更丰富的语言选择，包括粤语、四川话、郑州话、天津话和长沙话等主要方言，以及角色扮演功能，如模仿机器人、小猪佩奇的风格讲话等。

CosyVoice2.0的升级，不仅提升了语音合成的技术和体验，也进一步推动了开源社区的发展，鼓励更多的开发者参与到语音处理技术的创新和应用中来。

GitHub仓库:CosyVoice（https://github.com/FunAudioLLM/CosyVoice）查阅最新更新的CosyVoice2
在线体验DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
开源代码:https://github.com/FunAudioLLM/CosyVoice
开源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

苹果智能简体中文支持将于4月上线随iOS 18.4发布

苹果公司于今日凌晨通过官方网站发布消息，透露Apple智能功能即将迎来重大更新，支持语言范围显著扩大。此次新增支持的语言包括法语、德语、意大利语、葡萄牙语（巴西）、西班牙语、日语、韩语以及简体中文，同时还将推出新加坡与印度本地化英语版本。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

阿里巴巴股价飙升，背后原因竟与人工智能有关

阿里巴巴的股价在近期表现出色，持续攀升，吸引了投资者的广泛关注。这家知名的电子商务巨头上周发布了令人惊喜的财报，超出市场预期，进一步巩固了其在行业中的地位。公司不仅在营收上实现了增长，同时也表现出良好的盈利能力，显示出其强大的市场竞争力。值得注意的是，阿里巴巴宣布将与苹果公司在中国市场进行合作，支持 iPhone 的人工智能服务。这一消息无疑为其股价上涨注入了强心剂。双方的合作不仅将有助于推动阿里巴巴在 AI 领域的发展，还将提升其在消费者心目中

马斯克宣布Grok 3将全面免费，Premium+用户气晕了

在刚刚发布48小时后，Grok3的推出引发了用户们的强烈反应，尤其是刚刚花费40美元订阅 X 平台 Premium + 服务的用户。在他们满怀期待地准备体验这一最新 AI 大模型时，却发现马斯克在社交媒体 X 上的宣布:Grok3将 “短期内免费提供给所有人”，令他们感到心寒。XAI 官方账号甚至声称，免费将持续 “直到服务器崩溃”。在 Grok3发布后不久，马斯克在社交平台上晒出 Grok 应用在苹果应用商店的免费生产力工具榜单，显示其首次超过了 ChatGPT。用户们在评论区对此感到困惑，有人感叹:“我花钱升

AI新闻资讯

阿里通义实验室语音生成大模型CosyVoice升级2.0版本

AIbase基地

相关AI新闻推荐

苹果智能简体中文支持将于4月上线 随iOS 18.4发布

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

阿里巴巴股价飙升，背后原因竟与人工智能有关

马斯克宣布Grok 3将全面免费，Premium+用户气晕了

苹果智能简体中文支持将于4月上线随iOS 18.4发布

阿里国际开源Ovis2系列多模态大语言模型共有六个版本