OuteTTS-0.1-350M

純粋な言語モデルを用いたテキスト音声合成モデル

一般製品生産性テキスト音声変換音声合成
OuteTTS-0.1-350Mは、外部アダプタや複雑なアーキテクチャを必要としない、純粋な言語モデルに基づくテキスト音声合成技術です。精巧に設計されたプロンプトとオーディオトークンを用いて、高品質の音声合成を実現します。LLaMaアーキテクチャをベースとし、3億5000万パラメータを使用することで、言語モデルを直接音声合成に用いる可能性を示しています。音声処理は、WavTokenizerによるオーディオトークナイゼーション、CTC強制アライメントによる単語とオーディオトークンの正確なマッピング、そして特定のフォーマットに従った構造化プロンプトの作成という3つのステップで行われます。OuteTTSの主な利点としては、純粋な言語モデリング手法、音声クローン機能、llama.cppおよびGGUF形式との互換性などが挙げられます。
ウェブサイトを開く

OuteTTS-0.1-350M 最新のトラフィック状況

月間総訪問数

1049

直帰率

40.94%

平均ページ/訪問

1.2

平均訪問時間

00:00:13

OuteTTS-0.1-350M 訪問数の傾向

OuteTTS-0.1-350M 訪問地理的分布

OuteTTS-0.1-350M トラフィックソース

OuteTTS-0.1-350M 代替品