感情知能音声インターフェースに特化したスタートアップ企業、Hume AIは、最近「音声コントロール」という実験的な機能を発表しました。
この新しいツールは、開発者やユーザーがコーディング、AIプロンプトエンジニアリング、サウンドデザインのスキルを必要とせずに、パーソナライズされたAI音声を作成することを目指しています。ユーザーは音声の特徴を精密に調整することで、ニーズに合った音声を簡単にカスタマイズできます。
この新機能は、同社が以前発表した「共感音声インターフェース2」(EVI2)を基盤としています。EVI2は、音声の自然さ、感情表現力、カスタマイズ性を強化しました。従来の音声クローン技術とは異なり、Humeの製品は、顧客サービスチャットボット、デジタルアシスタント、教師、ガイド、アクセシビリティ機能など、さまざまな用途のニーズを満たす、独特で表現力豊かな音声を提供することに重点を置いています。
音声コントロール機能により、開発者は性別、断定性、興奮度、自信など、10個の異なる次元で音声の特徴を調整できます。
「男性/女性:性別の発声、より男性的でより女性的な間で変化します。
自信度:声の確固たる度合い、臆病と大胆の間で変化します。
浮力:声の密度、息切れと浮力の間で変化します。
自信:声の確信度、恥ずかしがり屋と自信の間で変化します。
熱意:声の中の興奮、平静と熱意の間で変化します。
鼻音:声の開放度、クリアと鼻声の間で変化します。
リラックス度:声の中のプレッシャー、緊張とリラックスの間で変化します。
滑らかさ:声の質感、滑らかとスタッカートの間で変化します。
穏やかさ:声の背後にある活力、穏やかと力強い間で変化します。
密着度:声の包容力、密着と息切れの間で変化します。」
ユーザーは仮想のスライダーを使用してこれらの属性をリアルタイムで微調整できるため、カスタマイズがシンプルで分かりやすくなっています。この機能は現在、Humeの仮想プラットフォームで提供されており、ユーザーは無料で登録するだけでアクセスできます。
音声コントロールは現在テスト版がリリースされており、HumeのEmpathic Voice Interface(EVI)と統合されているため、幅広いアプリケーションで使用できます。開発者は基本的な音声を選択し、その特性を調整し、結果をリアルタイムでプレビューできます。このプロセスにより、会話間の再現性と安定性が確保され、これは顧客サービスロボットや仮想アシスタントなどのリアルタイムアプリケーションにとって重要な機能です。
EVI2の影響は音声コントロール機能に顕著に表れています。初期モデルでは、会話プロンプトや多言語機能などの機能が導入され、音声AIアプリケーションの範囲が広がりました。例えば、EVI2は亜秒レベルの応答時間をサポートし、自然で即時の会話を実現します。また、インタラクション中に話し方を動的に調整できるため、企業にとって多機能なツールとなっています。
これは、AI業界におけるプリセット音声への依存問題に対処するために行われたものです。多くのブランドやアプリケーションは、ニーズを満たす音声を見つけるのに苦労することがよくあります。Humeの目標は、感情豊かな音声AIを開発し、業界の進歩を促進することです。EVI2は2024年9月のリリース時に、音声の遅延とコスト効率を大幅に向上させ、音声調整機能の安全な代替手段を提供しました。
Humeの研究主導型のアプローチは製品開発の中核を占めており、異文化の音声録音と感情調査データが統合されています。この方法論はEVI2と新しく発表された音声コントロールの基礎を構成しており、人間が音声をどのように知覚するかを綿密に捉えることができます。
現在、音声コントロールはテスト版でリリースされており、Humeの共感音声インターフェース(EVI)と組み合わされ、さまざまなアプリケーションシナリオをサポートしています。開発者は基本的な音声を選択し、その特性を調整し、結果をリアルタイムでプレビューして、顧客サービスや仮想アシスタントなどのリアルタイムアプリケーションにおける一貫性と安定性を確保できます。
市場での競争が激化する中、Humeのパーソナライズされた音声と感情知能という位置付けは、音声AI分野で際立った存在となっています。今後、Humeは音声コントロール機能の拡張、調整可能な次元の増加、音質の最適化、および基本的な音声の選択肢の範囲拡大を計画しています。
公式ブログ:https://www.hume.ai/blog/introducing-voice-control
要点:
🔊 **Hume AIは「音声コントロール」機能を発表しました。ユーザーは簡単にパーソナライズされたAI音声を作成できます。**
🛠️ **この機能はコーディングスキルを必要としません。ユーザーはスライダーで音声の特徴を調整できます。**
🌐 **Humeは、パーソナライズされた感情知能の音声AIを通じて、多様なアプリケーションニーズに対応することを目指しています。**