今天,OpenAI 宣布对其实时 API 进行更新,目前该 API 仍处于测试阶段。这次更新的亮点在于推出了五种新的语音选项,专为语音到语音应用而设计,同时还降低了相关的缓存费用,让开发者在使用时更加经济实惠。

475c4d1eaa6e3bc47f3db45d7c4ba540.png

在新推出的五种语音中,OpenAI 在 X 上的一篇文章中展示了其中三种新声音,Ash、Verse 和听起来像英国的 Ballad。这些声音不仅更加生动和可调节,还能够提供更自然的交流体验。OpenAI 在其 API 文档中提到,这项原生的语音到语音功能省去了中间的文本格式处理,从而实现了低延迟和更具细腻度的输出。

不过,OpenAI 也提醒用户,由于实时 API 目前仍在测试阶段,因此暂时无法提供客户端的身份验证。此外,实时音频处理可能会受到网络条件的影响,这也给大规模传输音频带来了挑战。OpenAI 指出,当网络条件不稳定时,确保音频可靠传输的确是一项艰巨的任务。

OpenAI 在语音技术上的发展历程也颇具争议。今年三月,他们推出了 “Voice Engine” 这一语音克隆平台,试图与 ElevenLabs 竞争,但仅对少数研究者开放。随着 GPT-4o 和语音模式的演示,OpenAI 在五月暂停了名为 “Sky” 的语音使用,因为好莱坞女星斯嘉丽・约翰逊对此表达了不满,认为其与她的声音过于相似。

在九月份,OpenAI 为其付费订阅用户推出了 ChatGPT 高级语音模式,包括 ChatGPT Plus、Enterprise、Teams 和 Edu 等用户都可以使用。通过这种语音到语音的技术,企业可以更快速地生成实时响应,极大提升客户服务的效率。

 降低成本,超50%

关于实时 API 的定价问题,OpenAI 在之前的发布中定价为分钟音频输入0.06美元,音频输出0.24美元,这样的费用对于开发者来说相对较高。不过,这次更新后,使用缓存的文本输入费用将降低50%,而缓存的音频输入费用则高达80% 的折扣。

OpenAI 在开发者日中宣布了 “Prompt Caching” 这一新功能,能够将频繁请求的上下文提示保存在模型的记忆中,从而减少生成响应时所需的 token 数量。通过降低输入价格,OpenAI 希望吸引更多的开发者使用其 API。

此外,其他公司如 Anthropic 也推出了类似的缓存功能,以提高其语音技术的吸引力。

划重点:

🌟 新增五种自然语音,提升语音应用体验  

💰 实时 API 通过缓存降低输入费用,开发者更划算  

⚡ 实时音频处理受网络条件影响,可靠性需关注