开口跪！Fish Audio发布 Fish Speech 1.5 新增5种语言，还将上线实时无缝对话功能

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月5号 11:19

1.9k

Fish Audio最近丢出了一枚重磅炸弹——Fish Speech1.5，这款全新的语音合成模型简直是“声”临其境，不仅在准确性、稳定性和跨语言能力上狂甩前辈几条街，还一口气新增了五种语言支持!此外，Fish Speech1.5还即将推出实时无缝对话功能，让用户可以随时随地选择语音库进行交互式聊天。

Fish Speech1.5的“学识”可是相当渊博，它可是“啃”了超过100万小时的多语言训练数据才练就一身绝技，目前已经精通包括英语、中文和日语在内的13种语言。这可不是吹牛，人家可是在匿名TTS-Arena排名中获得了第二名的好成绩!

Fish Speech1.5的语音克隆功能也堪称“闪电侠”，延迟时间竟然不到150毫秒，简直是实时生成!更重要的是，Fish Speech1.5还大方地开源了预训练模型，无论你是想自己在家“调教”还是选择云端服务，都能轻松搞定!

主要特点:

零样本和少样本语音合成:只需要给它听10到30秒的声音样本，它就能模仿得惟妙惟肖，生成高质量的语音合成输出。这就像是一个超级模仿秀，只要你敢“秀”，它就敢“学”!
多语言和跨语言支持:还在为语言不通而烦恼吗?Fish Speech1.5已经帮你扫清障碍了!只要把你想说的话复制粘贴到输入框，它就能轻松搞定，目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。这下，你终于可以和世界各地的朋友畅聊无阻啦!
无音素依赖:传统的语音合成模型往往依赖于音素，而Fish Speech1.5却另辟蹊径，它拥有超强的泛化能力，可以处理任何语言脚本的文本，这简直是语音合成界的一场革命!
高度准确:对于一篇5分钟的英文文章，Fish Speech1.5的错误率竟然低至2%，这可是一个相当惊人的数字!
快速:Fish Speech1.5的速度也是杠杠的，在Nvidia RTX4060笔记本电脑上，它的实时系数约为1:5，而在Nvidia RTX4090上，实时系数更是高达1:15!这简直就是“飞一般的感觉”!

Fish Speech1.5还支持本地部署:

WebUI:它提供了一个简单易用的Web UI，兼容Chrome、Firefox、Edge等主流浏览器，让你随时随地都能体验语音合成的乐趣。

GUI:它还提供了一个可与API服务器无缝协作的PyQt6图形界面，支持Linux、Windows和macOS系统，简直是“三剑客”的福音!

部署友好:你还可以轻松地将Fish Speech1.5部署到Linux、Windows和MacOS系统上，最大限度地减少速度损失。

官网地址：https://fish.audio/zh-CN/

项目地址：https://github.com/fishaudio/fish-speech

Meta智能眼镜Ray-Ban Meta升级：实时AI视频与翻译功能

Meta 公司宣布对其 Ray-Ban Meta 智能眼镜进行了一次重大的更新，推出了多项基于人工智能的新功能，包括实时对话和语言翻译。这些新功能现已向美国和加拿大的早期体验用户开放，用户可以下载最新的固件版本 v11。这次更新中最引人注目的 “实时 AI” 功能首次在秋季的 Meta Connect 开发者大会上亮相。该功能允许用户与 Meta 的 AI 助手进行持续对话，用户无需每次都说 “嘿，Meta” 来唤醒助手，而是可以随时打断 AI 进行后续提问或换话题。此外，用户还可以在佩戴眼镜时实时询问周围的环

海螺AI海外版上线超强AI语音克隆功能 60秒内复刻你的声音

最近，中文 AI 语音克隆技术迎来了一个突破性进展。海螺 AI 海外版推出的音频克隆模块，只需10到60秒的音频样本，便能完美复刻用户的声音。海螺 AI 海外版的音频克隆效果让许多用户感到惊喜，因为以往在中文语音克隆领域，虽然有不少产品，但效果往往不如人意。海螺 AI 的音频克隆功能非常简单易用，支持用户可以创建多个声音模型，用户只要进入“voice”模块，选择创建声音，并上传10秒至60秒长度的音频素材，就能对声音进行克隆。另外，系统支持12种语言，包括中文、粤语、英语

Meta最新音频大模型SPIRIT LM，让AI不止能说会道，还能“声情并茂”！

Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型，该模型能够自由混合文本和语音，为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型，通过在文本和语音单元上进行持续训练，扩展到语音模态。它可以像文本大模型一样理解和生成文本，同时还能理解和生成语音，甚至可以把文本和语音混合在一起，创造出各种神奇的效果! 比如，你可以用它来做语音识别，把语音转换成文字;也可以用它来做语音合成，把文字转换成语音;还可以用它来做

开源AI语言模型Ultravox v0.4.1：让AI实时对话更流畅、更智能

在人工智能的应用中，如何实现与 AI 的实时互动一直是开发者和研究人员面临的重大挑战。这其中，整合多模态信息（如文本、图像和音频）以形成一个连贯的对话系统显得尤为复杂。尽管像 GPT-4这样的先进大型语言模型取得了一些进展，但许多 AI 系统在实现实时对话流畅性、上下文意识以及多模态理解方面仍然存在困难，这限制了它们在实际应用中的效果。此外，这些模型的计算需求也使得在没有大量基础设施支持的情况下实现实时部署变得极为困难。为了解决这些问题，Fixie AI 推出

AI新闻资讯