Fish Audio最近丢出了一枚重磅炸弹——Fish Speech1.5,这款全新的语音合成模型简直是“声”临其境,不仅在准确性、稳定性和跨语言能力上狂甩前辈几条街,还一口气新增了五种语言支持!此外,Fish Speech1.5还即将推出实时无缝对话功能,让用户可以随时随地选择语音库进行交互式聊天。
Fish Speech1.5的“学识”可是相当渊博,它可是“啃”了超过100万小时的多语言训练数据才练就一身绝技,目前已经精通包括英语、中文和日语在内的13种语言。这可不是吹牛,人家可是在匿名TTS-Arena排名中获得了第二名的好成绩!
Fish Speech1.5的语音克隆功能也堪称“闪电侠”,延迟时间竟然不到150毫秒,简直是实时生成!更重要的是,Fish Speech1.5还大方地开源了预训练模型,无论你是想自己在家“调教”还是选择云端服务,都能轻松搞定!
主要特点:
零样本和少样本语音合成:只需要给它听10到30秒的声音样本,它就能模仿得惟妙惟肖,生成高质量的语音合成输出。这就像是一个超级模仿秀,只要你敢“秀”,它就敢“学”!
多语言和跨语言支持:还在为语言不通而烦恼吗?Fish Speech1.5已经帮你扫清障碍了!只要把你想说的话复制粘贴到输入框,它就能轻松搞定,目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。这下,你终于可以和世界各地的朋友畅聊无阻啦!
无音素依赖:传统的语音合成模型往往依赖于音素,而Fish Speech1.5却另辟蹊径,它拥有超强的泛化能力,可以处理任何语言脚本的文本,这简直是语音合成界的一场革命!
高度准确:对于一篇5分钟的英文文章,Fish Speech1.5的错误率竟然低至2%,这可是一个相当惊人的数字!
快速:Fish Speech1.5的速度也是杠杠的,在Nvidia RTX4060笔记本电脑上,它的实时系数约为1:5,而在Nvidia RTX4090上,实时系数更是高达1:15!这简直就是“飞一般的感觉”!
Fish Speech1.5还支持本地部署:
WebUI:它提供了一个简单易用的Web UI,兼容Chrome、Firefox、Edge等主流浏览器,让你随时随地都能体验语音合成的乐趣。
GUI:它还提供了一个可与API服务器无缝协作的PyQt6图形界面,支持Linux、Windows和macOS系统,简直是“三剑客”的福音!
部署友好:你还可以轻松地将Fish Speech1.5部署到Linux、Windows和MacOS系统上,最大限度地减少速度损失。
官网地址:https://fish.audio/zh-CN/
项目地址:https://github.com/fishaudio/fish-speech