AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Google发布E3TTS：高质量文本到语音模型

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Nov 7, 2023

Google的研究团队发布E3TTS，一款高质量端到端文本到语音模型。E3TTS采用BERT和扩散UNet模型，直接从文本生成音频波形，支持多语言和零样本任务。实验证明其性能接近最先进的神经TTS系统，为语音合成领域带来创新，提高了质量和效率，为AI语音应用带来新机遇。

语音合成 E3TTS 文本到语音

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

AI虚拟化身引领技术新浪潮：生成模型开启多样化应用前景

近日，生成式AI技术取得突破性进展，使虚拟化身（AI Avatars）不仅具备了栩栩如生的外表，更能自然流畅地"开口说话"。这一技术融合了尖端的语音合成与面部表情生成能力，正以惊人的速度打破数字与现实世界的边界，将AI从幕后工具推向与人类直接对话的舞台中央。这些AI虚拟化身的出现标志着生成式AI技术融合迈出了关键一步。通过将高度逼真的面部动画与自然语音合成无缝结合，这些数字角色能够精确模拟人类的细微表情、实现精准的口型同步，甚至表达情感变化，使其在视觉与听

2025年4月9号 8:38

1.5k

字节跳动在Hugging Face发布MegaTTS3：轻量化语音合成新突破

北京——字节跳动（ByteDance）近日在人工智能开源社区Hugging Face上正式发布了其最新的文本转语音（TTS）模型MegaTTS3。这一发布迅速引起了全球AI研究者和开发者的关注，因其在轻量化设计和多语言支持方面的突破性表现。根据技术社区反馈和官方信息，MegaTTS3 被誉为语音合成领域的一次重要进步。MegaTTS3 的核心亮点MegaTTS3 是一款由字节跳动与浙江大学合作开发的开源语音合成工具，其主干模型仅包含0. 45 亿个参数，相较于传统大型TTS模型显得异常轻量。这一设计不仅降低了计算资源需求，

2025年4月3号 8:23

7.6k

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

3月13日，Sesame公司推出其最新语音合成模型CSM，引发业界关注。据官方介绍，CSM采用端到端基于Transformer的多模态学习架构，能够理解上下文信息，生成自然且富有情感的语音，声音效果贴近真人，令人惊艳。该模型支持实时语音生成，可处理文本和音频输入，用户还能通过调整参数控制语气、语调、节奏及情感等特性，展现高度灵活性。CSM被认为是AI语音技术的重要突破。其语音自然度极高，甚至“无法分辨是人工合成还是真人”。有用户录制视频展示CSM几近无延迟的表现，称其为“体验

2025年3月14号 10:53

5.1k

Sesame 发布 CSM 语音模型：跨越“恐怖谷”，逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”（简称 CSM）近日在 X 平台上引发热议，被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力，不仅让用户“已经无法分辨”其与人类的区别，还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播，CSM 正迅速成为 AI 语音技术的新标杆。跨越“恐怖谷”:CSM 的技术突破“恐怖谷效应”是指当人工合成的语音或形象接近真实人类但仍存细微差异时，会引发人类的不适感。Sesame 通

2025年3月3号 11:37

6.4k

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音（TTS）模型 **Zonos-TTS**，该模型基于 **Apache2.0许可证**，完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能，还经过20万小时的英语语音数据训练，表现出卓越的性能。Zonos-TTS 提供了两种部署方式:支持本地部署和便捷的 API 服务。对于普通用户，ZyphraAI 提供每月免费生成 **100分钟** 音频的服务;专业版用户则可以选择 **300分钟/5美元** 的套餐，超出部分按每分钟 **0.02美元** 计费。特别值得一提的是，实时语音克隆功能完全免费，且支持高音频

2025年2月11号 10:27

5.4k

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

在人工智能的快速发展中，语音合成技术正日益受到关注。近日，名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布，该模型具有8200万参数，标志着语音合成领域的一个重要里程碑。Kokoro v0.19在发布之前的几周里，在 TTS（文本转语音）领域的排行榜上位列第一，其表现甚至超过了其他参数更多的模型。这一模型在单声道设置下，仅用不到100小时的音频数据，便实现了与467M 参数的 XTTS v2和1.2B 参数的 MetaVoice 等模型相媲美的效果。这一成就表明，传统语音合成模型的性能与参数、

2025年1月15号 10:02

16.1k

中文视觉语音开源模型VITA-1.5发布具备类GPT 4o高级语音和视觉能力

最近，多模态大型语言模型（MLLM）取得了显著进展，特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及，语音模态的重要性也日益凸显，尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介，还能显著提高交互的自然性和便利性。然而，由于视觉和语音数据在本质上的差异，将它们整合到 MLLM 中并非易事。例如，视觉数据传达空间信息，而语音数据则传达时间序列中的动态变化。这些根本性的差异给两种模态的同步优化带来了挑战，常常导致训练过程中的冲突。此

2025年1月7号 9:37

1.8k

开箱即用！一键式AI数字人系统AigcPanel 支持语音合成、声音克隆

还在为复杂的开源数字人工具配置环境而头疼?AigcPanel的出现将彻底改变这一现状。这款一站式AI数字人系统，以其简单易用的特性，让所有用户都能轻松驾驭。只需一个安装包，即可解决所有问题，告别繁琐的环境配置，只需下载模型即可上手，真正实现了“开箱即用”。AigcPanel的核心功能在于其强大的视频合成、声音合成以及声音克隆能力。用户可以轻松生成带有数字人的视频，并确保人物嘴型与声音完美同步。无论是为视频配音，还是为内容创作增加个性化元素，AigcPanel都能轻松胜任

2024年12月30号 9:36

4.1k

开口跪！Fish Audio发布 Fish Speech 1.5 新增5种语言，还将上线实时无缝对话功能

Fish Audio最近丢出了一枚重磅炸弹——Fish Speech1.5，这款全新的语音合成模型简直是“声”临其境，不仅在准确性、稳定性和跨语言能力上狂甩前辈几条街，还一口气新增了五种语言支持!此外，Fish Speech1.5还即将推出实时无缝对话功能，让用户可以随时随地选择语音库进行交互式聊天。Fish Speech1.5的“学识”可是相当渊博，它可是“啃”了超过100万小时的多语言训练数据才练就一身绝技，目前已经精通包括英语、中文和日语在内的13种语言。这可不是吹牛，人家可是在匿名TTS-Arena排名中获得了

2024年12月5号 11:19

50.5k

Meta最新音频大模型SPIRIT LM，让AI不止能说会道，还能“声情并茂”！

Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型，该模型能够自由混合文本和语音，为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型，通过在文本和语音单元上进行持续训练，扩展到语音模态。它可以像文本大模型一样理解和生成文本，同时还能理解和生成语音，甚至可以把文本和语音混合在一起，创造出各种神奇的效果! 比如，你可以用它来做语音识别，把语音转换成文字;也可以用它来做语音合成，把文字转换成语音;还可以用它来做

2024年11月22号 15:28

6.5k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图