TangoFlux

高効率なテキスト音声変換モデル

一般製品音楽テキスト音声変換音声生成
TangoFluxは、5億1500万パラメータを持つ高効率なテキスト音声変換(TTA)モデルです。単一のA40 GPU上で、最長30秒の44.1kHzオーディオをわずか3.7秒で生成できます。CLAP-Ranked Preference Optimization (CRPO)フレームワークを提案することで、TTAモデルの整列における課題を解決し、反復的な生成と選好データの最適化を通じてTTAの整列を強化します。TangoFluxは、客観的および主観的ベンチマークテストにおいて最先端の性能を達成しており、すべてのコードとモデルはオープンソースとして公開され、TTA生成の更なる研究を支援します。
ウェブサイトを開く

TangoFlux 最新のトラフィック状況

月間総訪問数

4420

直帰率

49.52%

平均ページ/訪問

1.1

平均訪問時間

00:00:00

TangoFlux 訪問数の傾向

TangoFlux 訪問地理的分布

TangoFlux トラフィックソース

TangoFlux 代替品