ElevenLabsは、注目を集めるAI音声クローンと生成のスタートアップ企業で、最近、最新のテキスト音声変換モデル「Scribe v1」を発表しました。このモデルは、複数の言語で最高精度を達成したと主張しており、ユーザーは公式ウェブサイトで体験できます。

QQ_1740621264139.png

ElevenLabsのベンチマークテストによると、Scribeは、口語をテキストに正確に変換する点において、GoogleのGemini 2.0 Flash、OpenAIのWhisper v3、Deepgram Nova-3を上回り、前例のない低いエラー率を達成しました。同社によると、Scribeはセルビア語、広東語、マラヤーラム語など、これまで見過ごされてきた言語を含む99種類の言語の高精度な転写をサポートしています。

ElevenLabsの主席研究員であるFlavio Schneider氏は、ソーシャルプラットフォームXで、Scribeは同社がこれまでにリリースした「最も賢い音声理解モデル」であると述べています。彼は、Scribeは単なる転写ツールではなく、音声コンテンツを理解し、非言語イベント(笑い声、効果音、音楽、背景ノイズなど)を検出し、複雑な環境下で長時間の音声コンテンツを分析して、正確な話者識別を行うことができると強調しました。特筆すべきは、Scribeが1つの音声ファイル内で最大32人の異なる話者を識別し、分離できることです。

QQ_1740621326377.png

ElevenLabsは、Scribeは「高精度な転写が必要な場合に最適であり、リアルタイム転写には適さない」とユーザーに警告しています。同社は、リアルタイムアプリケーションでの使用を拡大するために、低遅延バージョンをリリースする計画も立てています。

FLEURSとCommon Voiceのベンチマーク結果によると、Scribeは現実世界のオーディオの課題に対処する際に優れたパフォーマンスを発揮し、特にイタリア語(精度98.7%)と英語(精度96.7%)の単語エラー率が最低限に抑えられています。

Scribeは現在、ElevenLabsの公式ウェブサイトとAPIを通じて利用可能であり、価格は入力音声1時間あたり0.40ドルです。今後6週間は50%の割引が適用されます。さらに、リアルタイムアプリケーション向けの低遅延バージョンも開発中です。

企業の意思決定者にとって、Scribeは、ドキュメントの自動化、会議の転写、コンテンツのアクセシビリティを必要とする業界に適した、高精度な転写のためのスケーラブルなツールを提供します。このモデルによる複数の言語の高精度処理は、多国籍企業、メディア企業、カスタマーサポートアプリケーションにも役立ちます。

注目すべきは、Scribeの発表が、競合他社のHumeのテキスト音声変換モデルOctaveの発表と同日に行われたことです。Octaveは、大規模言語モデルに基づくテキスト音声変換ツールで、ユーザーは感情的なニーズに合わせてAI生成の音声をカスタマイズでき、オーディオブック、ポッドキャスト、ビデオゲームの吹き替えなどのコンテンツ作成を目的としています。ScribeとOctaveの機能は異なりますが、両者の発表は、AI駆動の音声モデルの競争が激化していることを反映しています。

製品入口:https://elevenlabs.io/blog/meet-scribe

要点:  

🌟 Scribe v1は、ElevenLabsが新たに発表した音声テキスト変換モデルで、複数の言語で最高精度を達成しました。  

🗣️ 99種類の言語に対応し、最大32人の異なる話者を識別でき、複雑な音声環境にも対応できます。  

💰 現時点での価格は1時間あたり0.40ドルで、今後6週間は50%の割引が適用されます。低遅延バージョンも開発中です。