腾讯出品！AI音频模型 EzAudio AI，让文本秒变逼真声音

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年9月19号 9:56

808

近日，约翰霍普金斯大学与腾讯 AI 实验室联合推出了一款名为 EzAudio 的新型文本到音频生成模型。这项技术承诺以空前的效率和高品质文本转换为声音，标志着人工智能和音频技术的重大飞跃。

EzAudio 的工作原理是利用音频波形的潜在空间，而不是传统的声谱图，这一创新让它能够在高时间分辨率下工作，且无需额外的神经声码器。

EzAudio 的架构被称为 EzAudio-DiT（扩散变换器），采用了多项技术创新来提高性能和效率。其中包括一种新的自适应层归一化技术 AdaLN-SOLA、长跳连接，以及先进的位置编码技术如 RoPE(旋转位置嵌入)。

研究人员表示，EzAudio 生成的音频样本非常逼真，客观和主观评估均优于现有的开源模型。

目前，AI 音频生成市场正快速增长。像 ElevenLabs 这样的知名公司最近推出了一款 iOS 应用，用于文本转语音的转换，显示出消费者对 AI 音频工具的浓厚兴趣。同时，微软和谷歌等科技巨头也在不断加大对 AI 语音模拟技术的投资。

根据 Gartner 的预测，到2027年，40% 的生成式 AI 解决方案将会是多模态的，结合文本、图像和音频的能力，这意味着 EzAudio 这样的高质量音频生成模型可能会在不断演变的 AI 领域中发挥重要作用。

EzAudio 团队已经公开了他们的代码、数据集和模型检查点，强调了透明性，并鼓励该领域的进一步研究。

研究人员认为 EzAudio 的应用可能超越声音效果生成，涉及语音和音乐制作等领域。随着技术的不断进步，它有望在娱乐、媒体、辅助服务和虚拟助手等行业中得到广泛应用。

demo:https://huggingface.co/spaces/OpenSound/EzAudio

项目入口:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

划重点:
🌟 EzAudio 是由约翰霍普金斯大学与腾讯合作推出的新型文本转音频生成模型，标志着音频技术的一次重大进步。
🎧 该模型通过创新的架构和技术，生成的音频样本在质量上优于现有开源模型，具备广泛的应用潜力。
⚖️ 随着技术的发展，伦理和责任使用的问题逐渐突显，EzAudio 的公开研究代码也为未来的风险与收益提供了广泛的检验机会。

Portkey AI Gateway：轻松整合多种大语言模型的开源AI解决方案

随着开源 AI 框架的快速发展，开发者们在部署 AI 模型时获得了前所未有的灵活性。Portkey AI Gateway 作为一款开源项目，旨在简化 AI 模型的编排，提供统一的 API 接口，助力开发者轻松整合多种 AI 模型。除了支持大型语言模型（LLMs），Portkey 还涵盖了视觉、音频(文本转语音和语音转文本)、图像生成等多模态生成 AI 模型。图源备注：图片由AI生成，图片授权服务商MidjourneyPortkey AI Gateway 的设计初衷在于解决开发者在集成和管理多个 LLM 提供商时面临的诸多挑战，包括供应商锁定、不同模型性能

SiMa.ai 连续第三年入选《福布斯》最佳初创企业雇主名单

SiMa.ai 公司近日宣布，其被评选为《福布斯》2025年美国最佳初创企业雇主名单，这已是该公司连续第三年获得此殊荣。SiMa.ai 致力于打造卓越的工作环境，吸引优秀人才，以推动人工智能（AI）在各个行业的应用，服务于全球客户。图源备注：图片由AI生成，图片授权服务商MidjourneySiMa.ai 是一家专注于软件的嵌入式边缘机器学习系统芯片（MLSoC）公司。该公司的产品被众多客户和合作伙伴所信赖，能够提供加速 AI、机器学习(ML)、数据和分析能力所需的硬件和软件，特别是在边缘计算场景下。

全球最大呼叫中心运营商采用AI技术实时修改印度员工口音

在全球商业沟通中，人工智能的角色引发了热烈的讨论。全球最大的呼叫中心运营商 Teleperformance 开始采用美国初创公司 Sanas 开发的人工智能技术，实时修改印度员工的口音，以便更好地服务西方客户。该公司声称，这项技术可以减少误解，提高生产效率，甚至保护呼叫中心员工免受语言攻击。图源备注:图片由AI生成，图片授权服务商Midjourney随着印度成为全球客户服务的重要枢纽，尤其是在英语沟通方面，客户有时对外国口音感到困惑，这导致了更长的通话时间和更多的升级投诉。根据

开源中国完成数亿元C轮融资，加速AI战略布局

3月6日，开源技术生态领军企业开源中国（开源共识(上海）网络技术有限公司)宣布完成数亿元C轮融资。本轮融资由北京信息产业发展投资基金(北京信产基金)领投，深报一本股权投资基金(深报一本)及北京上河动量私募股权基金(上河动量)跟投，指数资本担任财务顾问。融资将用于深化AI战略，扩展产品矩阵，推进软硬件协同的智能解决方案，促进AI在产业领域的落地。创始人兼董事长马越表示，此轮融资获新老股东支持，凸显对公司及国内开源生态的信心。他特别感谢指数资本的专业助力