MaskGCT
アライメント情報不要のゼロショットテキスト音声変換モデル
一般製品その他テキスト音声変換ゼロショット学習
MaskGCTは、明示的なアライメント情報や音素レベルの継続時間予測を必要としない革新的なゼロショットテキスト音声変換(TTS)モデルです。自己回帰型と非自己回帰型のシステムにおける問題点を解決し、2段階モデルを採用しています。第1段階では、テキスト予測を使用して音声自己教師あり学習(SSL)モデルから抽出した意味的トークンを使用し、第2段階では、これらの意味的トークンに基づいて音響トークンを予測します。MaskGCTはマスクと予測の学習パラダイムに従い、トレーニング中に、与えられた条件とプロンプトに基づいてマスクされた意味的または音響トークンを予測する学習を行います。推論時には、指定された長さのトークンを並列に生成します。実験により、MaskGCTは、品質、類似性、および理解可能性の点で、最先端のゼロショットTTSシステムを上回ることが示されています。
MaskGCT 最新のトラフィック状況
月間総訪問数
2187
直帰率
44.40%
平均ページ/訪問
1.0
平均訪問時間
00:00:00