フランスのスタートアップ企業Gladiaは、音声認識アプリケーションプログラミングインターフェース(API)を提供しており、シリーズAラウンドで1600万ドルを調達しました。GladiaのAPIは、本質的にあらゆるオーディオファイルを高い精度と低い遅延でテキストに変換できます。

Amazon、Microsoft、Googleは、クラウドホスティング製品スイートの一部として音声テキスト変換APIを提供していますが、専門のスタートアップ企業が提供する新しいモデルほど性能は高くありません。特にOpenAIがWhisperモデルを発表して以来、この分野はここ数年で大きな進歩を遂げています。Gladiaは、AssemblyAI、Deepgram、Speechmaticsなどの資金力のある企業と競争しています。

音声 波形

画像出典:AI生成画像、画像ライセンスプロバイダーMidjourney

Gladiaは当初、Whisper音声テキスト変換モデルの微調整版を提供し、必要な改良を加えました。例えば、このスタートアップ企業は、すぐに使える話者分離をサポートしています。これは、会話中に複数の話者がいる場合を検出し、誰が話しているかに基づいて録音と転写テキストを分離できる機能です。

Gladiaは100以上の言語と様々なアクセントをサポートしています。実際にこのツールは効果的であり、Gladiaを使用していくつかのインタビューの転写を行ってきましたが、アクセントは問題になりませんでした。

このスタートアップ企業は、音声テキスト変換モデルをホスト型APIとして提供しており、ユーザーはこれを自身のアプリケーションやサービスに適用できます。600社以上の企業がGladiaを使用しており、Attention、Circleback、Method Financial、Recall、Sana、Veed.ioなどの会議記録ツールやノートアプリが含まれています。

この特定のユースケースは興味深いものです。多くの企業がAPIをチェーン呼び出しする必要があるからです。まず音声テキスト変換を行い、次にテキストをGPT-4oやClaude3.5Sonnetなどの大規模言語モデル(LLM)に入力して、大量のテキストから知識を抽出します。

Gladiaは新たな資金により、オーディオインテリジェンスとLLMベースのタスクを1つのAPI呼び出しに統合して、このプロセスを簡素化したいと考えています。例えば、顧客は、サードパーティのLLM APIに依存することなく、いくつかの箇条書きから会話の概要を作成できます。

Gladiaが解決しようとしているもう1つの問題は遅延です。AIベースのコールエージェントを使用したリアルタイムオーディオ会話のデモをいくつか見たことがあるかもしれません(11xのウェブサイトには優れたデモがあります)。これらのシステムはリアルタイムで転写を行う必要があります。会話が可能な限り人間らしく聞こえるようにするためです。

Gladiaはこの問題の解決に取り組んでおり、現在300ミリ秒未満の遅延でリアルタイム会話を転写できます。同社は、リアルタイム処理がデフォルトの非同期バッチ処理転写APIと同等になったと主張していますが、適切なテストがないため判断は困難です。共同創設者兼CEOのJean-Louis Quéguiner(上図右側)がTechCrunchに語ったように、同社の目標は「リアルタイム機能を備えたバッチ処理品質」です。

AIコールエージェントに加えて、コールセンターがこれらのリアルタイム機能を使用して、通話中に関連情報を見つけるのに役立つことも考えられます。「当社の単一APIは、SIP、VoIP、FreeSwitch、Asteriskを含む、既存のテクノロジースタックやプロトコルすべてと互換性があります」と、共同創設者兼CTOのJonathan Soto(上図左側)は声明で述べています。

シリーズAラウンドはXAngeがリード投資家を務めました。Illuminate Financial、XTX Ventures、Athletico Ventures、Gaingels、Mana Ventures、Motier Ventures、Roosh Ventures、Soma Capitalも投資に参加しました。

Gladiaは、オーディオアプリケーションの「ChatGPTモーメント」の瀬戸際にいると考えています。GPTテクノロジーは長年存在していますが、ChatGPTは消費者向けのチャットのようなインターフェースを通じてLLMを真に普及させました。

AppleやGoogleがiOSやAndroidに転写モデルを含め始めると、消費者は使用しているアプリケーションで自動転写の価値を理解し始めます。その後、開発者は製品にオーディオ機能を統合する可能性があり、GladiaのようなAPIプロバイダーの出番となります。