Bilibili(ビリビリ)が開発した、XTTSとTortoiseをベースとしたGPTスタイルのテキスト読み上げ(TTS)モデル「IndexTTS」が正式にリリースされました。このシステムは、中国語テキスト処理において、独自のピンインによる漢字の発音修正機能を備え、句読点によって任意の位置で正確に休止を制御できます。この革新的な技術により、テキスト読み上げの音声はより自然でスムーズになり、広く注目を集めています。

QQ_1740637228105.png

IndexTTSシステムは数万時間におよぶデータでトレーニングされており、業界をリードする性能を実現し、XTTS、CosyVoice2、Fish-Speech、F5-TTSなど、現在主流のTTSシステムを凌駕しています。システムの複数のモジュールが強化され、特にスピーカー状態特徴表現と音声品質の最適化において大幅な改善が図られました。混合モデリング手法の導入により、IndexTTSは誤読された漢字を迅速に修正し、ユーザーエクスペリエンスを向上させています。

QQ_1740637247097.png

このモデルは最新の条件付きエンコーダーとBigVGAN2ベースの音声デコーダーを採用しており、トレーニングの安定性を向上させるだけでなく、音声の類似性と音質も強化しています。開発チームは、arXivに関連論文を提出しており、今後数週間以内にモデルパラメータとコードを公開する予定です。さらに、IndexTTSは多音節語彙や主観的・客観的評価セットを含む複数のテストセットを提供し、研究者が詳細な分析を行うことができます。

複数の評価において、IndexTTSは優れた性能を示し、特に単語誤り率(WER)とスピーカー類似性(SS)において、多くの同業モデルを上回っています。例えば、標準中国語のテストでは、IndexTTSの単語誤り率はわずか1.3%で、他のモデルを大きく下回り、その高い精度と安定性を示しています。同時に、音質評価において、IndexTTSのMOSスコアは4.01に達し、優れた音質と音色を示しています。

技術の進歩と適用範囲の拡大に伴い、IndexTTSのリリースはテキスト読み上げ技術がより高いレベルに到達したことを示しています。このシステムに関する詳細情報については、関連チームにお問い合わせいただき、詳細な使用体験と技術サポートを得ることができます。

プロジェクト:https://github.com/index-tts/index-tts

要点:

🌟 IndexTTSはXTTSとTortoiseをベースとしたGPTスタイルのTTSモデルで、漢字の発音修正と休止制御が可能です。

📊 数万時間におよぶトレーニングを経て、既存の多くの主流TTSシステムを凌駕する業界トップレベルの性能を実現しました。

🔍 IndexTTSは複数の評価で優れた成績を収め、単語誤り率と音質の両面で他のモデルを上回り、その大きな優位性を示しました。