アリババ達摩院の通義实验室は最近、音声品質と明瞭度を向上させることを目的としたClearerVoice-Studioという音声処理技術をオープンソース化すると発表しました。音声技術の広範な応用に伴い、音声品質への関心が高まっており、特に環境ノイズ、残響、デバイスの音声拾い上げなどの状況下では、音声処理技術の需要がますます高まっています。

ClearerVoice-Studioは、音声強調、音声分離、音声ビデオ話者抽出などの機能を統合しており、複素数領域深層学習アルゴリズムを融合することで、音声ノイズ低減と分離のパフォーマンスを大幅に向上させました。この技術は、背景ノイズを最大限に除去し、音声の明瞭さを維持しながら、音声の歪みを最小限に抑えます。

阿里云、通義千問

ClearerVoice-Studioの中核となるモデルとアルゴリズムには、2022年のIEEE/INTER Speech DNS Challengeで総合2位を獲得したFRCRNモデルと、音声分離タスクで優れた性能を示したMossFormerシリーズモデルが含まれています。MossFormer2ベースの48kHz音声強調モデルは、ノイズを効果的に抑制しながら、音声の歪みを大幅に低減します。

アリババ通義实验室は、ClearerVoice-Studioプラットフォームを通じて、開発者、研究者、企業に強力な音声処理ツールを提供し、革新的なアプリケーションの導入を支援したいと考えています。ユーザーはオンライン体験デモを通じて、ノイズを含む音声ファイルをアップロードし、ワンクリックで処理してオンラインで試聴またはダウンロードすることで、クリアな音質と優れたノイズ低減効果をすぐに得ることができます。

GitHub リポジトリ:https://github.com/modelscope/ClearerVoice-Studio

オンライン体験デモ:https://huggingface.co/spaces/alibabasglab/ClearVoice