人工知能の急速な発展に伴い、音声合成技術がますます注目されています。最近、Hugging FaceプラットフォームでKokoroという最新のテキスト音声変換(TTS)モデルが正式にリリースされました。このモデルは8200万パラメーターを備え、音声合成分野における重要なマイルストーンを意味します。
Kokoro v0.19はリリースの数週間前、TTS分野のランキングで1位を獲得し、パラメーター数の多い他のモデルを凌駕する性能を示しました。このモデルはモノラル設定で、わずか100時間未満のオーディオデータを使用して、4億6700万パラメーターのXTTS v2や12億パラメーターのMetaVoiceなどのモデルに匹敵する効果を実現しました。この成果は、従来の音声合成モデルのパフォーマンスとパラメーター数、計算量、データ量の関係が、これまでの予想以上に顕著であることを示唆しています。
使用方法としては、Google Colabで数行のコードを実行するだけで、モデルと音声パックを読み込み、高品質のオーディオを生成できます。Kokoroは現在、アメリカ英語とイギリス英語に対応しており、複数の音声パックを選択できます。
Kokoroのトレーニングプロセスには、Vast.aiのA100 80GB vRAMインスタンスを使用し、レンタルコストは比較的低く抑えられ、効率的なトレーニングプロセスが確保されました。モデル全体のトレーニングには、20回未満のトレーニングサイクルと100時間未満のオーディオデータしか使用されていません。Kokoroモデルのトレーニングには、パブリックドメインのオーディオデータとその他のオープンライセンスのオーディオデータが使用され、データのコンプライアンスが確保されています。
Kokoroは音声合成において優れた性能を示していますが、トレーニングデータとアーキテクチャの制約により、現在、音声クローンはサポートされていません。また、主要なトレーニングデータは長文の朗読とナレーションに集中しており、会話には対応していません。
モデル: https://huggingface.co/hexgrad/Kokoro-82M
体験: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
要点:
🌟 Kokoro-82Mは、8200万パラメーターを備え、複数の音声パックに対応した、新しくリリースされた音声合成モデルです。
🎤 このモデルはTTS分野で卓越した性能を示し、ランキングで1位を獲得しました。トレーニングにはわずか100時間未満のオーディオデータしか使用されていません。
📊 Kokoroモデルのトレーニングにはオープンライセンスのデータが使用され、コンプライアンスが確保されていますが、現在いくつかの機能制限があります。