Seed-TTS
高品質で多機能な音声合成モデルシリーズ
プレミアム新製品生産性音声合成テキスト音声変換
Seed-TTSは、バイトダンスが発表した大規模自己回帰型テキスト音声変換(TTS)モデルシリーズです。人間の声と区別が難しいほど自然な音声生成が可能です。音声コンテキスト学習、話者類似度、自然度の点で優れた性能を発揮し、ファインチューニングによって主観評価をさらに向上させることができます。Seed-TTSは、感情などの音声属性に対する優れた制御能力も備えており、表現力豊かで多様な音声を生成できます。さらに、音声分解のための自己蒸留法と、モデルの堅牢性、話者類似度、制御性を向上させる強化学習法を提案しています。また、事前推定された音素持続時間に依存せず、拡散モデルに基づく完全なエンドツーエンドの音声生成を行う非自己回帰(NAR)バリアントであるSeed-TTSDiTも紹介しています。
Seed-TTS 最新のトラフィック状況
月間総訪問数
16826
直帰率
42.75%
平均ページ/訪問
2.8
平均訪問時間
00:02:20