MaskGCT

アライメント情報不要のゼロショットテキスト音声変換モデル

一般製品その他テキスト音声変換ゼロショット学習
MaskGCTは、明示的なアライメント情報や音素レベルの継続時間予測を必要としない革新的なゼロショットテキスト音声変換(TTS)モデルです。自己回帰型と非自己回帰型のシステムにおける問題点を解決し、2段階モデルを採用しています。第1段階では、テキスト予測を使用して音声自己教師あり学習(SSL)モデルから抽出した意味的トークンを使用し、第2段階では、これらの意味的トークンに基づいて音響トークンを予測します。MaskGCTはマスクと予測の学習パラダイムに従い、トレーニング中に、与えられた条件とプロンプトに基づいてマスクされた意味的または音響トークンを予測する学習を行います。推論時には、指定された長さのトークンを並列に生成します。実験により、MaskGCTは、品質、類似性、および理解可能性の点で、最先端のゼロショットTTSシステムを上回ることが示されています。
ウェブサイトを開く

MaskGCT 最新のトラフィック状況

月間総訪問数

2187

直帰率

44.40%

平均ページ/訪問

1.0

平均訪問時間

00:00:00

MaskGCT 訪問数の傾向

MaskGCT 訪問地理的分布

MaskGCT トラフィックソース

MaskGCT 代替品