Make-An-Audio 2
拡散モデルに基づくテキスト音声変換技術
一般製品その他テキスト音声変換拡散モデル
Make-An-Audio 2は、浙江大学、バイトダンス、香港中文大学の研究者らが共同開発した、拡散モデルに基づくテキスト音声変換技術です。本技術は、事前に学習済みの大規模言語モデル(LLM)を用いてテキストを解析し、意味の整合性と時間的一貫性を最適化することで、生成される音声の品質を向上させています。また、フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計することで、可変長音声生成のパフォーマンスを改善し、時間情報の抽出を強化しています。さらに、LLMを用いて大量の音声ラベルデータを音声テキストデータセットに変換することで、時間データの不足という問題を解決しています。
Make-An-Audio 2 最新のトラフィック状況
月間総訪問数
67
直帰率
38.80%
平均ページ/訪問
1.0
平均訪問時間
00:00:00