法国初创公司Gladia提供了一种语音识别应用程序编程接口(API),在A轮融资中筹集了1600万美元。本质上,Gladia的API能够将任何音频文件以高准确度和低延迟转换成文本。

虽然亚马逊、微软和谷歌都作为其云托管产品套件的一部分提供了语音转文本API,但它们的表现并不如一些专业初创公司提供的新型模型。尤其是自OpenAI发布Whisper模型以来,这一领域在过去几年取得了巨大进步。Gladia与AssemblyAI、Deepgram和Speechmatics等资金充足的公司竞争。

音频 声波

图源备注:图片由AI生成,图片授权服务商Midjourney

Gladia最初提供了Whisper语音转文本模型的微调版本,并进行了一些必要的改进。例如,该初创公司支持开箱即用的说话人分离——它能够检测对话中何时有多个说话者,并根据谁在说话来分离录音和转录文本。

Gladia支持100种语言和多种口音。据报道,该工具确实有效,因为我们一直在使用Gladia来转录一些采访,口音并不是问题。

这家初创公司将其语音转文本模型作为托管API提供,用户可以将其应用于自己的应用程序和服务中。超过600家公司使用Gladia,包括几款会议记录器和笔记助手,如Attention、Circleback、Method Financial、Recall、Sana和Veed.io。

这个特定的用例很有趣,因为许多公司必须链式调用API。他们首先将语音转换为文本,然后将文本输入到大型语言模型(LLM)中,如GPT-4o或Claude3.5Sonnet,以从大量文本中提取知识。

有了新资金,Gladia希望将音频智能和基于LLM的任务集成到一个API调用中来简化该流程。例如,客户可以从几个项目符号中生成对话摘要,而无需依赖第三方LLM API。

Gladia希望解决的另一个问题是延迟。你可能已经看到一些实时音频对话的演示,这些对话使用了基于AI的呼叫代理(11x在其网站上有一个不错的演示),这些系统必须能够实时转录,以使对话听起来尽可能像人类。

Gladia选择解决这个问题,目前它能够以低于300毫秒的延迟转录实时对话。该公司声称,实时处理现在与默认的异步批处理转录API一样好,但没有适当的测试很难判断。正如联合创始人兼首席执行官Jean-Louis Quéguiner(上图右侧)对TechCrunch所说,这家初创公司的目标是“具有实时能力的批处理质量”。

除了AI呼叫代理,可以想象呼叫中心使用这些实时功能来帮助呼叫代理在通话中间找到相关信息。“我们的单一API与所有现有的技术栈和协议兼容,包括SIP、VoIP、FreeSwitch和Asterisk,”联合创始人兼首席技术官Jonathan Soto(上图左侧)在一份声明中说。

XAnge领投了A轮融资。Illuminate Financial、XTX Ventures、Athletico Ventures、Gaingels、Mana Ventures、Motier Ventures、Roosh Ventures和Soma Capital也参与了融资。

Gladia认为我们正处于音频应用的“ChatGPT时刻”的边缘。GPT技术已经存在多年,但ChatGPT通过其类似消费者聊天的界面真正普及了LLM。

随着苹果或谷歌开始在iOS或Android中包含转录模型,消费者将开始理解他们在使用的应用程序中自动转录的价值。然后开发者可能会将音频功能集成到他们的产品中,这就是像Gladia这样的API提供商的用武之地。