Fish Speech 1.4发布:开源TTS模型迎来多语言突破

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年9月13号 11:13

916

Fish Speech1.4版本的发布标志着这款开源文本转语音（TTS）模型在多语言支持和性能方面取得了重大突破。作为一个致力于提供高质量、自然流畅语音合成体验的创新解决方案，Fish Speech在这次更新中展现了其强大的技术实力和广阔的应用前景。

多语言支持大幅提升

Fish Speech1.4最引人注目的特点是其强大的多语言支持能力:

训练数据量翻倍:模型使用了70万小时的多语言数据进行训练，较之前的20万小时有了显著提升。这意味着模型能够学习到更多语言的细微差别和表达方式。

语言支持扩展:现在支持8种主要语言，包括英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语。这大大拓展了Fish Speech的应用范围，使其成为真正的国际化TTS解决方案。

性能与功能全面升级

除了语言支持的提升，Fish Speech1.4还在多个方面实现了性能突破:

超快速度与低延迟:优化后的模型能够实现超快的TTS处理速度和超低的延迟，为实时应用提供了可能。

即时语音克隆:新版本引入了即时语音克隆功能，让用户能够快速复制特定的语音风格。

灵活部署选项:支持自托管或云服务部署，满足不同用户的需求。

API服务:提供API接口，方便开发者将Fish Speech集成到自己的应用中。

应用前景广阔

Fish Speech1.4的升级为其在多个领域的应用开辟了新的可能:

教育领域:支持多语言的高质量TTS可以为语言学习、在线课程等提供有力支持。

娱乐产业:即时语音克隆功能可用于游戏、动画配音等创意工作。

辅助技术:为视障人士提供更自然、更多语言选择的阅读辅助工具。

智能客服:多语言支持和低延迟特性使其成为理想的智能客服语音合成解决方案。

跨文化交流:帮助突破语言障碍，促进国际交流与合作。

官网https://fish.audio/zh-CN/auth/

项目地址：https://github.com/fishaudio/fish-speech

HYBE旗下AI 声音工具Supertone Play上线：10秒搞定声音克隆

近日，HYBE 旗下的人工智能语音公司 Supertone 宣布推出了一款名为 “Supertone Play” 的文本转语音工具，旨在生成高质量、富有表现力的音频内容。这款新工具目前支持英语、韩语和日语，预计在今年内将扩展至西班牙语和中文。Supertone Play 提供了150种声音角色，适用于多种内容创作需求，包括自然对话、专业播报新闻和有声读物，以及潮流驱动的搞笑声音。此外，它还具备语音克隆功能，用户可以在短短10秒钟内根据自己的声音创建个性化的声音角色，并能够调整不同的情感语调，以满足不

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

在人工智能的快速发展中，语音合成技术正日益受到关注。近日，名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布，该模型具有8200万参数，标志着语音合成领域的一个重要里程碑。Kokoro v0.19在发布之前的几周里，在 TTS（文本转语音）领域的排行榜上位列第一，其表现甚至超过了其他参数更多的模型。这一模型在单声道设置下，仅用不到100小时的音频数据，便实现了与467M 参数的 XTTS v2和1.2B 参数的 MetaVoice 等模型相媲美的效果。这一成就表明，传统语音合成模型的性能与参数、

开箱即用！一键式AI数字人系统AigcPanel 支持语音合成、声音克隆

还在为复杂的开源数字人工具配置环境而头疼?AigcPanel的出现将彻底改变这一现状。这款一站式AI数字人系统，以其简单易用的特性，让所有用户都能轻松驾驭。只需一个安装包，即可解决所有问题，告别繁琐的环境配置，只需下载模型即可上手，真正实现了“开箱即用”。AigcPanel的核心功能在于其强大的视频合成、声音合成以及声音克隆能力。用户可以轻松生成带有数字人的视频，并确保人物嘴型与声音完美同步。无论是为视频配音，还是为内容创作增加个性化元素，AigcPanel都能轻松胜任

闪速！ElevenLabs推Flash语音对话模型：仅75毫秒延迟支持32种语言

ElevenLabs 于近日正式推出其最新的人声合成模型 Flash，声称这是迄今为止最快的文本转语音（TTS）解决方案，生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手，用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。Flash 模型分为两个版本，其中 Flash v2仅支持英语，而 Flash v2.5则支持32种语言。使用这两种模型时，用户每生成两个字符将消耗1个积分点。尽管 Flash 模型在音质和情感深度上稍逊于 Turbo 模型，但其低延迟性能使其在盲测中超越了其他

AI新闻资讯