La startup francesa Gladia, que ofrece una interfaz de programación de aplicaciones (API) de reconocimiento de voz, ha recaudado 16 millones de dólares en una ronda de financiación Serie A. Básicamente, la API de Gladia puede convertir cualquier archivo de audio en texto con alta precisión y baja latencia.
Si bien Amazon, Microsoft y Google ofrecen API de voz a texto como parte de sus conjuntos de productos de alojamiento en la nube, su rendimiento no se compara con los modelos más nuevos de algunas startups especializadas. Este campo ha avanzado enormemente en los últimos años, especialmente desde el lanzamiento del modelo Whisper de OpenAI. Gladia compite con empresas bien financiadas como AssemblyAI, Deepgram y Speechmatics.
Nota de la imagen: Imagen generada por IA, proveída por Midjourney
Gladia inicialmente ofreció una versión ajustada del modelo de voz a texto Whisper, con algunas mejoras importantes. Por ejemplo, la startup admite la separación de hablantes lista para usar: puede detectar cuándo hay varios hablantes en una conversación y separar la grabación y la transcripción de texto según quién esté hablando.
Gladia admite 100 idiomas y numerosos acentos. Según los informes, la herramienta funciona eficazmente, ya que hemos estado usando Gladia para transcribir varias entrevistas, y los acentos no han sido un problema.
La startup ofrece su modelo de voz a texto como una API alojada que los usuarios pueden integrar en sus propias aplicaciones y servicios. Más de 600 empresas utilizan Gladia, incluyendo varias herramientas de grabación de reuniones y toma de notas, como Attention, Circleback, Method Financial, Recall, Sana y Veed.io.
Este caso de uso específico es interesante porque muchas empresas deben encadenar llamadas a la API. Primero convierten el audio a texto y luego introducen el texto en un modelo de lenguaje grande (LLM), como GPT-4 o Claude 3.5 Sonnet, para extraer información de grandes cantidades de texto.
Con la nueva financiación, Gladia pretende simplificar este proceso integrando la inteligencia de audio y las tareas basadas en LLM en una sola llamada a la API. Por ejemplo, los clientes podrían generar resúmenes de conversaciones a partir de varios puntos clave sin depender de una API LLM de terceros.
Otro problema que Gladia quiere resolver es la latencia. Es posible que haya visto demostraciones de conversaciones de audio en tiempo real que utilizan agentes de llamadas basados en IA (11x tiene una buena demostración en su sitio web), y estos sistemas deben poder transcribir en tiempo real para que la conversación suene lo más humana posible.
Gladia ha abordado este problema y actualmente puede transcribir conversaciones en tiempo real con una latencia inferior a 300 milisegundos. La empresa afirma que el procesamiento en tiempo real ahora es tan bueno como la API de transcripción por lotes asincrónica predeterminada, pero es difícil juzgarlo sin pruebas adecuadas. Como dijo el cofundador y CEO Jean-Louis Quéguiner (a la derecha en la imagen superior) a TechCrunch, el objetivo de la startup es "la calidad de procesamiento por lotes con capacidad en tiempo real".
Además de los agentes de llamadas de IA, se puede imaginar que los centros de llamadas utilicen estas funciones en tiempo real para ayudar a los agentes a encontrar información relevante durante una llamada. "Nuestra API única es compatible con todas las pilas y protocolos tecnológicos existentes, incluyendo SIP, VoIP, FreeSwitch y Asterisk", dijo el cofundador y CTO Jonathan Soto (a la izquierda en la imagen superior) en un comunicado.
XAnge lideró la ronda de financiación Serie A. También participaron Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures y Soma Capital.
Gladia cree que estamos al borde del "momento ChatGPT" de las aplicaciones de audio. La tecnología GPT ha existido durante años, pero ChatGPT realmente popularizó los LLM a través de su interfaz similar a una conversación de consumidor.
A medida que Apple o Google comiencen a incluir modelos de transcripción en iOS o Android, los consumidores empezarán a comprender el valor de la transcripción automática en las aplicaciones que utilizan. Entonces, los desarrolladores podrían integrar funciones de audio en sus productos, y ahí es donde entran en juego los proveedores de API como Gladia.