Das französische Startup Gladia bietet eine Spracherkennungs-API (Application Programming Interface) an und hat in einer Serie-A-Finanzierungsrunde 16 Millionen US-Dollar eingesammelt. Im Wesentlichen wandelt die API von Gladia beliebige Audiodateien mit hoher Genauigkeit und geringer Latenz in Text um.
Obwohl Amazon, Microsoft und Google Spracherkennungs-APIs als Teil ihrer Cloud-Hosting-Produktpakete anbieten, erreichen sie nicht die Leistung neuerer Modelle, die von spezialisierten Startups bereitgestellt werden. Insbesondere seit der Veröffentlichung des Whisper-Modells von OpenAI hat dieses Gebiet in den letzten Jahren enorme Fortschritte gemacht. Gladia konkurriert mit gut finanzierten Unternehmen wie AssemblyAI, Deepgram und Speechmatics.
Bildquelle: Das Bild wurde mit KI generiert und von Midjourney lizenziert.
Gladia bot zunächst eine feinabgestimmte Version des Whisper-Sprach-zu-Text-Modells an und führte einige notwendige Verbesserungen ein. So unterstützt das Startup beispielsweise die Sprecherseparation out-of-the-box – es kann erkennen, wann mehrere Sprecher in einem Gespräch vorkommen, und die Aufnahme und die Transkription entsprechend trennen.
Gladia unterstützt 100 Sprachen und zahlreiche Akzente. Berichten zufolge funktioniert das Tool effektiv, da wir Gladia bereits für die Transkription einiger Interviews verwendet haben und Akzente kein Problem darstellten.
Das Startup bietet sein Sprach-zu-Text-Modell als gehostete API an, die Benutzer in ihre eigenen Anwendungen und Dienste integrieren können. Über 600 Unternehmen nutzen Gladia, darunter mehrere Meeting-Recorder und Notiz-Assistenten wie Attention, Circleback, Method Financial, Recall, Sana und Veed.io.
Dieser spezielle Anwendungsfall ist interessant, da viele Unternehmen APIs verkettet aufrufen müssen. Sie wandeln zunächst Sprache in Text um und geben den Text dann an große Sprachmodelle (LLMs) wie GPT-4 oder Claude 3.5 Sonnet weiter, um Wissen aus großen Textmengen zu extrahieren.
Mit den neuen Finanzmitteln möchte Gladia die Audio-Intelligenz und LLM-basierte Aufgaben in einen API-Aufruf integrieren, um diesen Prozess zu vereinfachen. Kunden könnten beispielsweise aus mehreren Stichpunkten eine Gesprächszusammenfassung generieren, ohne auf Drittanbieter-LLM-APIs angewiesen zu sein.
Ein weiteres Problem, das Gladia lösen möchte, ist die Latenz. Sie haben vielleicht schon einige Demos von Echtzeit-Audiogesprächen gesehen, die KI-basierte Call-Agents verwenden (11x hat auf seiner Website eine gute Demo), wobei diese Systeme in der Lage sein müssen, in Echtzeit zu transkribieren, damit sich das Gespräch so natürlich wie möglich anhört.
Gladia hat sich diesem Problem angenommen und kann derzeit Echtzeitgespräche mit einer Latenz von unter 300 Millisekunden transkribieren. Das Unternehmen behauptet, dass die Echtzeitverarbeitung jetzt genauso gut ist wie die standardmäßige asynchrone Batch-Transkriptions-API, aber ohne angemessene Tests ist es schwer zu beurteilen. Wie Mitgründer und CEO Jean-Louis Quéguiner (rechts im Bild oben) gegenüber TechCrunch sagte, zielt das Startup auf „Batch-Qualität mit Echtzeitfähigkeit“ ab.
Neben KI-Call-Agents könnten Callcenter diese Echtzeitfunktionen nutzen, um Call-Agents dabei zu unterstützen, während eines Anrufs relevante Informationen zu finden. „Unsere einzelne API ist mit allen bestehenden Technologie-Stacks und Protokollen kompatibel, darunter SIP, VoIP, FreeSwitch und Asterisk“, sagte Mitgründer und CTO Jonathan Soto (links im Bild oben) in einer Erklärung.
XAnge führte die Serie-A-Finanzierungsrunde an. Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures und Soma Capital beteiligten sich ebenfalls an der Finanzierung.
Gladia ist der Meinung, dass wir am Rande des „ChatGPT-Moments“ für Audioanwendungen stehen. GPT-Technologie existiert schon seit Jahren, aber ChatGPT hat LLMs durch seine benutzerfreundliche, chatähnliche Oberfläche wirklich populär gemacht.
Sobald Apple oder Google beginnen, Transkriptionsmodelle in iOS oder Android einzubinden, werden Verbraucher den Wert der automatischen Transkription in den von ihnen verwendeten Anwendungen verstehen. Dann könnten Entwickler Audiofunktionen in ihre Produkte integrieren – und genau hier kommen API-Anbieter wie Gladia ins Spiel.