アリババの通義实验室音声チームは、オープンソースの音声生成大規模モデルCosyVoiceがバージョン2.0にアップグレードされたことを発表しました。このアップグレードは、音声生成技術の正確性、安定性、自然な体験において顕著な進歩を示しています。CosyVoice2.0は、オフラインとストリーミングを統合したモデリングの音声生成大規模モデル技術を採用することで、双方向ストリーミング音声合成を実現し、最初の合成遅延を150msに短縮し、音声合成の応答速度を大幅に向上させました。
発音の正確性において、CosyVoice2.0は前バージョンと比較してエラー率が30%~50%低下し、Seed-TTSテストセットの困難なテストセットで最少の文字エラー率を達成しました。特に、早口言葉、多音字、珍しい漢字の合成において優れた性能を発揮します。さらに、2.0バージョンはゼロショット音声生成とクロスリンガル音声合成において音色の統一性を維持しており、特にクロスリンガル音声合成能力は1.0バージョンと比べて大幅に向上しています。
CosyVoice2.0は、合成音声のリズム、音質、感情の一致性も向上しており、MOS評価点は5.4から5.53に上昇し、ある商用音声合成大規模モデルのスコアに近づいています。同時に、2.0バージョンはより細かい感情制御と方言アクセント制御をサポートしており、広東語、四川語、鄭州語、天津語、長沙語などの主要な方言、そしてロボットやペッパピッグを模倣した話し方など、より豊富な言語選択肢とキャラクターロールプレイ機能を提供します。
CosyVoice2.0のアップグレードは、音声合成の技術と体験を向上させるだけでなく、オープンソースコミュニティの発展を促進し、より多くの開発者が音声処理技術の革新と応用に参加することを奨励します。
GitHubリポジトリ:CosyVoice(https://github.com/FunAudioLLM/CosyVoice)でCosyVoice2の最新アップデートを確認できます。
オンライン体験DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
オープンソースコード:https://github.com/FunAudioLLM/CosyVoice
オープンソースモデル:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B