Make-An-Audio 2

拡散モデルに基づくテキスト音声変換技術

一般製品その他テキスト音声変換拡散モデル
Make-An-Audio 2は、浙江大学、バイトダンス、香港中文大学の研究者らが共同開発した、拡散モデルに基づくテキスト音声変換技術です。本技術は、事前に学習済みの大規模言語モデル(LLM)を用いてテキストを解析し、意味の整合性と時間的一貫性を最適化することで、生成される音声の品質を向上させています。また、フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計することで、可変長音声生成のパフォーマンスを改善し、時間情報の抽出を強化しています。さらに、LLMを用いて大量の音声ラベルデータを音声テキストデータセットに変換することで、時間データの不足という問題を解決しています。
ウェブサイトを開く

Make-An-Audio 2 最新のトラフィック状況

月間総訪問数

67

直帰率

38.80%

平均ページ/訪問

1.0

平均訪問時間

00:00:00

Make-An-Audio 2 訪問数の傾向

Make-An-Audio 2 訪問地理的分布

Make-An-Audio 2 トラフィックソース

Make-An-Audio 2 代替品