NaturalSpeech 3
NaturalSpeech 3は、ゼロショット(Zero-Shot)音声合成システムであり、分解型コーデックと拡散モデルを用いて自然な音声生成を行います。
一般製品音楽人工知能音声合成
NaturalSpeech 3は、音声の様々な属性(内容、韻律、音色、音響的詳細など)を分解し、それぞれを個別に生成することで、音声合成の品質、類似性、韻律を向上させることを目指しています。このシステムは、分解ベクトル量子化(FVQ)を用いて音声波形を解きほぐすニューラルコーデックと、対応するプロンプトに基づいて各部分空間の属性を生成する分解型拡散モデルを設計しています。
NaturalSpeech 3 最新のトラフィック状況
月間総訪問数
6223
直帰率
46.50%
平均ページ/訪問
1.2
平均訪問時間
00:00:01