音声AI分野で注目を集めた後も、OpenAIはその研究開発を継続しており、ChatGPTの開発元である同社は今回、新たに3つの音声モデルを発表しました。gpt-4o-transcribe、gpt-4o-mini-transcribe、そしてgpt-4o-mini-ttsです。中でも最も注目されているのがgpt-4o-transcribeです。
これらの新しいモデルは、既にAPIを通じてサードパーティの開発者向けに公開されており、開発者はこれらを利用してよりスマートなアプリケーションを開発できます。また、OpenAIはOpenAI.fmというデモサイトも提供しており、一般ユーザーも簡単に試用できます。
主要機能のご紹介
期待が高まるgpt-4o-transcribeの優れた点は何か?簡単に言えば、2年前にOpenAIが公開したオープンソースの音声転写モデルWhisperのアップグレード版であり、文字化け率の低減と性能の向上を目指しています。
OpenAIの公式データによると、業界標準の33言語のテストにおいて、gpt-4o-transcribeはWhisperと比べて文字化け率が大幅に低下しました。特に英語では、文字化け率は2.46%という低さです!高精度な音声転写が必要な場面では、これは大きな進歩と言えるでしょう。
さらに注目すべきは、この新しいモデルが様々な複雑な環境下でも優れた性能を発揮することです。騒音のある環境、様々なアクセント、速いまたは遅い話し方など、どのような状況でもより正確な転写結果を提供します。そして、100以上の言語に対応しています。
転写精度の向上のため、gpt-4o-transcribeにはノイズ除去と意味的な音声活動検出技術が導入されています。
OpenAIの技術者Jeff Harris氏は、後者の技術によって、話者が完全に一つの考えを述べ終えたかどうかをモデルが判断できるようになり、文節の誤りを防ぎ、転写全体の質を向上させると説明しています。さらに、gpt-4o-transcribeはストリーミング音声転写に対応しており、開発者は継続的にオーディオを入力し、リアルタイムでテキスト結果を得ることができ、より自然な会話を実現できます。
注意すべき点として、gpt-4o-transcribeモデルファミリーは現在「話者分離」(diarization)機能を備えていません。つまり、受信したオーディオ(複数の人物の声が含まれる可能性があります)を一括してテキストに転写することに重点を置いており、異なる話者を区別してマークすることはできません。
話者を区別する必要がある場合、制限があるかもしれませんが、転写全体の精度向上における利点は依然として顕著です。
開発者先行:APIインターフェース公開済み
現在、gpt-4o-transcribeはOpenAIのAPIインターフェースを通じて開発者向けに提供されています。これは、開発者がこの強力な音声転写機能を自分のアプリケーションに迅速に統合し、ユーザーにより便利な音声インタラクション体験を提供できることを意味します。
OpenAIのライブデモによると、既にGPT-4oなどのテキスト大規模言語モデルに基づいて構築されたアプリケーションの場合、わずか約9行のコードで音声インタラクション機能を簡単に追加できます。例えば、ECアプリケーションでは、注文情報に関するユーザーからの問い合わせに音声で回答する機能を迅速に実装できます。
ただし、OpenAIは、ChatGPTのコストと性能に関する特別なニーズを考慮して、これらの新しいモデルは現時点ではChatGPTには直接適用されませんが、将来的には段階的に統合される予定です。より低い遅延とリアルタイムの音声インタラクションを求める開発者には、Realtime APIの音声対音声モデルの使用を推奨しています。
その強力な音声転写能力により、gpt-4o-transcribeは多くの分野で活躍することが期待されています。OpenAIは、顧客対応センター、会議議事録の自動生成、AI駆動型スマートアシスタントなどのシナリオが、この技術の適用に非常に適していると述べています。既に新しいモデルを試用した企業からも、OpenAIの音声モデルが音声AIの性能を大幅に向上させたというフィードバックが寄せられています。
もちろん、OpenAIはElevenLabsが提供するScribeモデル(低い文字化け率と話者分離機能を備えている)など、他の音声AI企業からの競争にも直面しています。また、Hume AIのOctave TTSモデルは、発音と感情のコントロールにおいてより細かいカスタマイズオプションを提供しています。オープンソースコミュニティでも、高度な音声モデルが次々と登場しています。
OpenAIが今回発表したgpt-4o-transcribeなどの新しい音声モデルは、音声転写分野で強力な能力と可能性を示しました。現時点では主に開発者向けですが、音声インタラクション体験の向上における価値は無視できません。将来、技術の進歩に伴い、さらに驚くべき音声AIアプリケーションが登場する可能性があります。
ウェブサイトへのアクセス:https://www.openai.fm/