本日、OpenAIはリアルタイムAPIのアップデートを発表しました。現在、このAPIはテスト段階です。今回のアップデートのハイライトは、音声対音声アプリケーション向けに設計された5つの新しい音声オプションの導入と、関連するキャッシュ費用を削減し、開発者にとってより経済的なものになったことです。

475c4d1eaa6e3bc47f3db45d7c4ba540.png

新しく導入された5つの音声のうち、OpenAIはXの投稿でAsh、Verse、そしてイギリス英語のようなBalladの3つの新しい音声を紹介しました。これらの音声は、より生き生きとして調整可能であるだけでなく、より自然なコミュニケーション体験を提供します。OpenAIのAPIドキュメントでは、このネイティブの音声対音声機能は中間的なテキストフォーマット処理を省くことで、低遅延でより繊細な出力を実現していると述べられています。

ただし、OpenAIは、リアルタイムAPIはまだテスト段階であるため、現時点ではクライアント認証を提供できないと注意を促しています。さらに、リアルタイムオーディオ処理はネットワーク状況の影響を受ける可能性があり、大規模なオーディオ転送にも課題をもたらします。OpenAIは、ネットワーク状況が不安定な場合、オーディオの信頼性の高い転送を確保することは確かに困難な課題であると指摘しています。

OpenAIの音声技術開発の歴史には、論争も伴います。今年3月、同社は「Voice Engine」という音声クローン作成プラットフォームを発表し、ElevenLabsとの競争を試みましたが、少数の研究者のみが利用可能でした。GPT-4oと音声モデルのデモを経て、5月にはハリウッド女優のスカーレット・ヨハンソンが自身の声との類似性を懸念したため、「Sky」という音声の使用を一時停止しました。

9月には、OpenAIはChatGPT Plus、Enterprise、Teams、Eduなどの有料サブスクリプションユーザー向けに、ChatGPT高度音声モードを導入しました。この音声対音声技術により、企業はリアルタイムで迅速な応答を生成し、顧客サービスの効率を大幅に向上させることができます。

 コスト削減、50%超 

リアルタイムAPIの価格設定について、OpenAIは以前の発表で、1分間の音声入力あたり0.06ドル、音声出力あたり0.24ドルと設定していました。これは開発者にとって比較的高い費用でした。しかし、今回のアップデートにより、キャッシュされたテキスト入力の費用は50%削減され、キャッシュされた音声入力の費用は最大80%割引となります。

OpenAIは開発者向けイベントで、「Prompt Caching」という新機能を発表しました。これは、頻繁に要求されるコンテキストプロンプトをモデルのメモリに保存することで、応答生成に必要なトークン数を削減する機能です。入力価格を下げることで、OpenAIはより多くの開発者がAPIを利用することを期待しています。

さらに、Anthropicなどの他社も同様のキャッシュ機能を導入し、音声技術の魅力を高めています。

要点:

🌟 5つの自然な音声を追加し、音声アプリケーション体験を向上  

💰 リアルタイムAPIはキャッシングにより入力コストを削減し、開発者にとってより経済的  

⚡ リアルタイムオーディオ処理はネットワーク状況の影響を受け、信頼性に注意が必要