网易有道开源语音合成引擎「易魔声」，支持 2000 多种音色

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年11月10号 14:01

网易有道宣布上线开源技术「易魔声」开源语音合成引擎，支持中英文双语，包含 2000 多种不同的音色，并具备特色的情感合成功能。用户可以通过 GitHub 下载使用，并通过提供的界面和脚本接口实现音色的情感合成与应用。该项目旨在帮助开发者与内容创作者扩大高质量 TTS 的应用范围。此外，网易有道还推出了声音定制、声音复刻以及 Hi Echo 虚拟人口语私教等酷炫 AI 技术，为用户提供更多个性化、实用的服务。

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

在人工智能的快速发展中，语音合成技术正日益受到关注。近日，名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布，该模型具有8200万参数，标志着语音合成领域的一个重要里程碑。Kokoro v0.19在发布之前的几周里，在 TTS（文本转语音）领域的排行榜上位列第一，其表现甚至超过了其他参数更多的模型。这一模型在单声道设置下，仅用不到100小时的音频数据，便实现了与467M 参数的 XTTS v2和1.2B 参数的 MetaVoice 等模型相媲美的效果。这一成就表明，传统语音合成模型的性能与参数、

开箱即用！一键式AI数字人系统AigcPanel 支持语音合成、声音克隆

还在为复杂的开源数字人工具配置环境而头疼?AigcPanel的出现将彻底改变这一现状。这款一站式AI数字人系统，以其简单易用的特性，让所有用户都能轻松驾驭。只需一个安装包，即可解决所有问题，告别繁琐的环境配置，只需下载模型即可上手，真正实现了“开箱即用”。AigcPanel的核心功能在于其强大的视频合成、声音合成以及声音克隆能力。用户可以轻松生成带有数字人的视频，并确保人物嘴型与声音完美同步。无论是为视频配音，还是为内容创作增加个性化元素，AigcPanel都能轻松胜任

Meta最新音频大模型SPIRIT LM，让AI不止能说会道，还能“声情并茂”！

Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型，该模型能够自由混合文本和语音，为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型，通过在文本和语音单元上进行持续训练，扩展到语音模态。它可以像文本大模型一样理解和生成文本，同时还能理解和生成语音，甚至可以把文本和语音混合在一起，创造出各种神奇的效果! 比如，你可以用它来做语音识别，把语音转换成文字;也可以用它来做语音合成，把文字转换成语音;还可以用它来做

OuteTTS-0.1-350M:一种新颖的文本转语音合成方法，具有零样本语音克隆功能

近日，Oute AI 发布了一种新颖的文本转语音合成方法，称为 OuteTTS-0.1-350M。这种方法利用纯语言建模，无需外部适配器或复杂架构，提供了一种简化的 TTS 方法。OuteTTS-0.1-350M 基于 LLaMa 架构，使用 WavTokenizer 直接生成音频标记，使得流程更加高效。该模型具有零样本语音克隆功能，仅需几秒钟的参考音频即可复制新的声音。OuteTTS-0.1-350M 专为设备性能而设计，并与 llama.cpp 兼容，使其成为实时应用的理想选择。尽管该模型的参数规模相对较小（3.5亿个），但其性能可与更大、更复杂的 TTS 系统