Google的研究团队发布E3TTS,一款高质量端到端文本到语音模型。E3TTS采用BERT和扩散UNet模型,直接从文本生成音频波形,支持多语言和零样本任务。实验证明其性能接近最先进的神经TTS系统,为语音合成领域带来创新,提高了质量和效率,为AI语音应用带来新机遇。