La startup française Gladia, qui propose une interface de programmation d'application (API) de reconnaissance vocale, a levé 16 millions de dollars lors d'un tour de financement de série A. En substance, l'API de Gladia permet de convertir n'importe quel fichier audio en texte avec une grande précision et une faible latence.
Bien qu'Amazon, Microsoft et Google proposent des API de transcription vocale dans le cadre de leurs suites de produits hébergés dans le cloud, leurs performances sont inférieures à celles des nouveaux modèles proposés par certaines startups spécialisées. Le domaine a notamment connu des progrès considérables ces dernières années, notamment depuis la sortie du modèle Whisper d'OpenAI. Gladia est en concurrence avec des entreprises bien financées comme AssemblyAI, Deepgram et Speechmatics.
Source : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney
Gladia a initialement proposé une version affinée du modèle de transcription vocale Whisper, avec quelques améliorations essentielles. Par exemple, la startup prend en charge la séparation des locuteurs prête à l'emploi : elle est capable de détecter la présence de plusieurs locuteurs dans une conversation et de séparer l'enregistrement et la transcription textuelle en fonction de qui parle.
Gladia prend en charge 100 langues et de nombreux accents. L'outil est apparemment efficace, car nous avons utilisé Gladia pour transcrire plusieurs interviews, et les accents n'ont pas posé de problème.
La startup propose son modèle de transcription vocale sous forme d'API hébergée que les utilisateurs peuvent intégrer à leurs propres applications et services. Plus de 600 entreprises utilisent Gladia, notamment plusieurs logiciels de prise de notes et d'enregistrement de réunions, tels qu'Attention, Circleback, Method Financial, Recall, Sana et Veed.io.
Ce cas d'utilisation est particulièrement intéressant, car de nombreuses entreprises doivent enchaîner les appels d'API. Elles convertissent d'abord la voix en texte, puis injectent le texte dans un grand modèle linguistique (LLM) tel que GPT-4 ou Claude 3.5 Sonnet pour extraire des connaissances d'une grande quantité de texte.
Grâce à ses nouveaux fonds, Gladia souhaite simplifier ce processus en intégrant l'intelligence audio et les tâches basées sur les LLM dans un seul appel d'API. Par exemple, les clients pourraient générer un résumé de conversation à partir de quelques points, sans avoir besoin de recourir à une API LLM tierce.
Un autre problème que Gladia souhaite résoudre est la latence. Vous avez peut-être déjà vu des démonstrations de conversations audio en temps réel utilisant des agents d'appel basés sur l'IA (11x propose une bonne démonstration sur son site web) ; ces systèmes doivent être capables de transcrire en temps réel pour que la conversation sonne le plus naturellement possible.
Gladia a choisi de s'attaquer à ce problème et est désormais capable de transcrire des conversations en temps réel avec une latence inférieure à 300 millisecondes. La société affirme que le traitement en temps réel est désormais aussi performant que l'API de transcription par lots asynchrone par défaut, mais il est difficile à juger sans tests appropriés. Comme l'a déclaré Jean-Louis Quéguiner (à droite sur la photo ci-dessus), co-fondateur et PDG, à TechCrunch, l'objectif de la startup est d'atteindre « la qualité de traitement par lots avec des capacités en temps réel ».
Outre les agents d'appel basés sur l'IA, on peut imaginer les centres d'appel utiliser ces fonctionnalités en temps réel pour aider les agents à trouver des informations pertinentes en cours d'appel. « Notre API unique est compatible avec toutes les piles technologiques et tous les protocoles existants, notamment SIP, VoIP, FreeSwitch et Asterisk », a déclaré Jonathan Soto (à gauche sur la photo ci-dessus), co-fondateur et directeur technique, dans un communiqué.
XAnge a mené le tour de financement de série A. Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures et Soma Capital ont également participé au financement.
Gladia estime que nous sommes au bord d'un « moment ChatGPT » pour les applications audio. La technologie GPT existe depuis plusieurs années, mais ChatGPT a véritablement démocratisé les LLM grâce à son interface de type conversation grand public.
Au fur et à mesure qu'Apple ou Google commenceront à intégrer des modèles de transcription dans iOS ou Android, les consommateurs commenceront à comprendre la valeur de la transcription automatique dans les applications qu'ils utilisent. Les développeurs pourraient alors intégrer des fonctionnalités audio à leurs produits, et c'est là que les fournisseurs d'API comme Gladia entrent en jeu.