OuteTTS-0.1-350M
純粋な言語モデルを用いたテキスト音声合成モデル
一般製品生産性テキスト音声変換音声合成
OuteTTS-0.1-350Mは、外部アダプタや複雑なアーキテクチャを必要としない、純粋な言語モデルに基づくテキスト音声合成技術です。精巧に設計されたプロンプトとオーディオトークンを用いて、高品質の音声合成を実現します。LLaMaアーキテクチャをベースとし、3億5000万パラメータを使用することで、言語モデルを直接音声合成に用いる可能性を示しています。音声処理は、WavTokenizerによるオーディオトークナイゼーション、CTC強制アライメントによる単語とオーディオトークンの正確なマッピング、そして特定のフォーマットに従った構造化プロンプトの作成という3つのステップで行われます。OuteTTSの主な利点としては、純粋な言語モデリング手法、音声クローン機能、llama.cppおよびGGUF形式との互換性などが挙げられます。
OuteTTS-0.1-350M 最新のトラフィック状況
月間総訪問数
1049
直帰率
40.94%
平均ページ/訪問
1.2
平均訪問時間
00:00:13