リアルタイムコミュニケーションの世界では、電話やビデオ会議など、音声は自己表現の重要なツールです。しかし、言語の内容やリズムに影響を与えることなく、話者の声色をリアルタイムで変更できたらどうなるでしょうか?StreamVC技術の登場により、それが可能になりました。

StreamVCは、ソース音声の内容とリズムを維持しながら、ターゲット音声の声色に一致させる革新的な音声変換ソリューションです。従来の方法とは異なり、StreamVCは入力信号に対して低遅延で結果波形を生成し、モバイルプラットフォームでも実現可能であるため、電話やビデオ会議などのリアルタイムコミュニケーションシーン、そしてこれらのシーンにおける音声匿名化に適しています。

技術のハイライト:

リアルタイム性:StreamVCは、モバイルデバイス上で70.8ミリ秒の低遅延推論を実現します。

高品質音声合成:SoundStreamニューラルオーディオコーデックのアーキテクチャとトレーニング戦略を利用して、軽量で高品質の音声合成を実現します。

ピッチ安定性:ホワイトニング基本周波数(f0)情報を導入することで、ピッチの一貫性を向上させ、ソース話者の声色情報を漏洩しません。

image.png

StreamVCのデザインは、Soft-VCとSoundStreamからインスピレーションを得ています。離散音声単位を内容エンコーダーネットワークの予測ターゲットとして使用し、HuBERTモデルで抽出します。内容エンコーダーとデコーダーのアーキテクチャとトレーニング戦略は、SoundStreamニューラルオーディオコーデックのデザインを採用し、高品質の因果的オーディオ合成を実現しています。

StreamVCは、自然度、理解度、話者類似度、ピッチの一貫性など、複数のベンチマークテストで既存技術と比較されました。実験結果は、StreamVCがソース言語のトーンを維持する点で優れた性能を示し、話者類似度においても微調整されたモデルに匹敵することを示しています。

StreamVCは、モバイルデバイス上で低遅延で効率的な音声変換が完全に実現可能であることを証明しました。HuBERT由来のソフト音声単位は、ストリーミング可能な因果的畳み込みニューラルネットワークアーキテクチャによって学習でき、デコーダーにホワイトニングf0情報を注入することが、高品質の出力に不可欠です。

論文アドレス:https://arxiv.org/pdf/2401.03078