A startup francesa Gladia oferece uma API (interface de programação de aplicativos) de reconhecimento de voz e arrecadou US$ 16 milhões em uma rodada de financiamento Série A. Essencialmente, a API da Gladia consegue converter qualquer arquivo de áudio em texto com alta precisão e baixa latência.
Embora a Amazon, a Microsoft e o Google ofereçam APIs de voz para texto como parte de seus pacotes de produtos em nuvem, seu desempenho não se compara aos modelos mais novos oferecidos por algumas startups especializadas. Em particular, o campo fez progressos significativos nos últimos anos, especialmente desde o lançamento do modelo Whisper pela OpenAI. A Gladia compete com empresas bem financiadas como AssemblyAI, Deepgram e Speechmatics.
Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney
Inicialmente, a Gladia ofereceu uma versão ajustada fina do modelo de voz para texto Whisper, com algumas melhorias essenciais. Por exemplo, a startup oferece suporte para separação de locutores pronto para uso – consegue detectar quando há vários locutores em uma conversa e separar a gravação e a transcrição de texto de acordo com quem está falando.
A Gladia suporta 100 idiomas e vários sotaques. Relatos indicam que a ferramenta realmente funciona, pois temos usado a Gladia para transcrever algumas entrevistas, e os sotaques não foram um problema.
A startup oferece seu modelo de voz para texto como uma API hospedada que os usuários podem integrar em seus próprios aplicativos e serviços. Mais de 600 empresas usam a Gladia, incluindo vários gravadores de reuniões e assistentes de anotações, como Attention, Circleback, Method Financial, Recall, Sana e Veed.io.
Este caso de uso específico é interessante porque muitas empresas precisam fazer chamadas em cadeia de APIs. Primeiro, elas convertem a fala em texto e, em seguida, inserem o texto em um modelo de linguagem grande (LLM), como o GPT-4 ou o Claude 3.5 Sonnet, para extrair conhecimento de grandes quantidades de texto.
Com o novo financiamento, a Gladia pretende simplificar esse processo integrando a inteligência de áudio e as tarefas baseadas em LLM em uma única chamada de API. Por exemplo, os clientes podem gerar resumos de conversas em alguns marcadores, sem depender de APIs LLM de terceiros.
Outro problema que a Gladia espera resolver é a latência. Você provavelmente já viu demonstrações de conversas de áudio em tempo real usando agentes de chamadas baseados em IA (a 11x tem uma boa demonstração em seu site), e esses sistemas precisam conseguir transcrever em tempo real para que a conversa soe o mais humana possível.
A Gladia optou por resolver esse problema e atualmente consegue transcrever conversas em tempo real com uma latência inferior a 300 milissegundos. A empresa afirma que o processamento em tempo real agora é tão bom quanto a API de transcrição em lote assíncrona padrão, mas sem testes adequados é difícil dizer. Como disse o cofundador e CEO Jean-Louis Quéguiner (à direita na imagem acima) ao TechCrunch, o objetivo da startup é “qualidade de processamento em lote com capacidade em tempo real”.
Além dos agentes de chamadas de IA, é possível imaginar centros de atendimento usando esses recursos em tempo real para ajudar os atendentes a encontrar informações relevantes durante uma chamada. “Nossa API única é compatível com todas as pilhas e protocolos tecnológicos existentes, incluindo SIP, VoIP, FreeSwitch e Asterisk”, disse o cofundador e CTO Jonathan Soto (à esquerda na imagem acima) em um comunicado.
A XAnge liderou a rodada de financiamento Série A. A Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures e Soma Capital também participaram do financiamento.
A Gladia acredita que estamos à beira do “momento ChatGPT” dos aplicativos de áudio. A tecnologia GPT existe há anos, mas o ChatGPT realmente popularizou os LLMs por meio de sua interface semelhante a um bate-papo para consumidores.
À medida que a Apple ou o Google começarem a incluir modelos de transcrição no iOS ou Android, os consumidores começarão a entender o valor da transcrição automática nos aplicativos que usam. Então, os desenvolvedores podem integrar recursos de áudio em seus produtos, e é aí que entram os fornecedores de APIs como a Gladia.