TangoFlux
高効率なテキスト音声変換モデル
一般製品音楽テキスト音声変換音声生成
TangoFluxは、5億1500万パラメータを持つ高効率なテキスト音声変換(TTA)モデルです。単一のA40 GPU上で、最長30秒の44.1kHzオーディオをわずか3.7秒で生成できます。CLAP-Ranked Preference Optimization (CRPO)フレームワークを提案することで、TTAモデルの整列における課題を解決し、反復的な生成と選好データの最適化を通じてTTAの整列を強化します。TangoFluxは、客観的および主観的ベンチマークテストにおいて最先端の性能を達成しており、すべてのコードとモデルはオープンソースとして公開され、TTA生成の更なる研究を支援します。
TangoFlux 最新のトラフィック状況
月間総訪問数
4420
直帰率
49.52%
平均ページ/訪問
1.1
平均訪問時間
00:00:00