音声アシスタントは、私たちの生活に欠かせないものになりつつあります。しかし、既存のデジタル音声アシスタントは、ユーザーとのやり取りにおいて、淡白で、感情や人間味に欠けていることが多いです。Sesameチームはこの問題に取り組んでおり、デジタルアシスタントがよりリアルで、理解され、大切にされるコミュニケーションを実現する、全く新しい「音声存在」という概念の実現を目指しています。

QQ_1740965796294.png

Sesameの中核となる目標は、単なる要求処理ツールではなく、真の会話を交わせるデジタルな仲間を作ることにあります。これらのデジタル仲間は、ユーザーとのやり取りを通じて、信頼感と安心感を徐々に築き、日常生活におけるより豊かで深いコミュニケーション体験を提供することを目指しています。そのため、Sesameチームは、感情知能、会話ダイナミクス、コンテキスト認識、一貫性のある人格特性という重要な構成要素に焦点を当てています。

感情知能とは、音声アシスタントがユーザーの感情状態を理解し、それに応答する能力です。音声コマンドの理解にとどまらず、音声の中の感情の変化を感知し、より適切なフィードバックを行う必要があります。次に、会話ダイナミクスは、音声アシスタントがコミュニケーションにおいて備えるべき自然なリズム、つまり適切な間、適切な語調の強調、割り込みなどを強調し、会話をよりスムーズで自然なものにします。

さらに、コンテキスト認識も非常に重要です。これは、音声アシスタントが会話の背景や履歴に基づいて、語調やスタイルを柔軟に調整し、現在の状況に合わせることを要求します。この能力により、デジタルアシスタントは様々な状況で適切に対応でき、ユーザーの満足度を高めることができます。最後に、一貫性のある人格特性とは、音声アシスタントが様々な会話において比較的統一された個性とスタイルを維持し、ユーザーの信頼感を高めることを意味します。

しかし、「音声存在」という目標を実現するのは容易ではありません。Sesameチームは、個性、記憶、表現力、適切さなど、複数の側面で着実に進歩を遂げています。最近、チームは会話音声生成におけるいくつかの実験結果を発表し、特にフレンドリーさと表現力の向上に重点を置いており、その手法の可能性を十分に示しています。

技術面では、Sesameチームは従来のテキスト音声変換(TTS)モデルの欠点を克服するために、「会話音声モデル」(CSM)と呼ばれる新しい手法を提案しました。この手法はトランスフォーマーアーキテクチャを利用し、より自然で一貫性のある音声生成を目指しています。CSMはテキストとオーディオのマルチモーダル学習を行うだけでなく、会話の履歴に基づいて出力を調整することで、従来モデルのコンテキスト理解における短所を解消します。

モデルの効果を検証するために、Sesameチームは大量の公開音声データを用いてトレーニングを行い、転写、セグメンテーションなどの方法でトレーニングサンプルを作成しました。彼らは様々な規模のモデルをトレーニングし、客観的および主観的評価指標において良好な成績を収めました。現在、モデルの自然さと音声適応性は人間レベルに近づいていますが、具体的な会話状況ではまだ改善の余地があります。

公式から提供されたサンプルでは、生成された作品にAIらしさがほとんど感じられず、非常にリアルです。

Sesameチームは、コミュニティが実験や改良に参加できるように、研究成果をオープンソース化する予定です。この取り組みは、会話型AIの発展を加速させるだけでなく、モデルの規模と言語サポートを拡大し、より多くのアプリケーションシナリオを網羅することを目指しています。さらに、チームは、事前学習済み言語モデルを活用して、マルチモーダルモデルの構築の基礎を築く方法についても検討する予定です。

プロジェクトデモ:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

要点:

🌟 Sesameチームは「音声存在」の実現を目指し、デジタルアシスタントがコマンドの実行だけでなく、真の会話を可能にしようとしています。

🔧 「会話音声モデル」(CSM)により、コンテキスト理解と音声生成において新たなブレイクスルーを達成しました。

🌐 チームは研究成果をオープンソース化し、言語サポートを拡大することで、会話型AIの更なる発展を目指しています。