ElevenLabsは先日、最新のテキスト音声変換(TTS)モデル「Flash」を発表しました。これは、これまでで最速のTTSソリューションと謳われ、音声生成の遅延はわずか75ミリ秒(アプリとネットワークの遅延を含む)です。Flashは、低遅延の対話型音声アシスタントに最適で、ElevenLabsの会話型AIプラットフォームですぐに体験できます。

image.png

Flashモデルには、英語のみ対応のFlash v2と、32言語に対応するFlash v2.5の2つのバージョンがあります。どちらのモデルを使用する場合も、2文字生成するごとに1ポイント消費されます。FlashモデルはTurboモデルと比べて音質や感情表現の深さは劣りますが、低遅延性能においてはブラインドテストで他の同種製品を上回り、最速のモデルとなっています。

ElevenLabsの技術チームは、Flashモデルの導入により、人間と機械のインタラクションがよりスムーズで自然なものになると述べています。開発者はAPIを介してモデルID「eleven_flash_v2」と「eleven_flash_v2_5」を直接呼び出すことができ、APIに関する詳しい情報はElevenLabsの公式ウェブサイトで確認できます。この革新的な技術を通じて、ElevenLabsは低遅延で人間らしい対話インタラクションの新たな場面を開拓することを期待しています。

image.png

ElevenLabsは、カスタマイズ可能な音声アシスタント、オーディオ制作ツール、ボイスオーバースタジオなど、様々な製品とソリューションを提供しており、様々な分野のユーザーや開発者が高品質なAIオーディオ制作を実現することを目指しています。さらに、ElevenLabsは研究開発にも積極的に取り組んでおり、ユーザーのニーズの高まりに応えるべく、製品の技術レベルの向上を継続しています。

要点:

🌟 Flashモデルの音声生成遅延はわずか75ミリ秒で、低遅延の対話型音声アシスタントに最適です。

🌍 Flash v2.5は32言語に対応し、2文字生成するごとに1ポイント消費します。

🚀 ブラインドテストで他の同種製品を上回り、最速のテキスト音声変換ソリューションとなっています。