小型テキスト読み上げモデルKokoro-TTS、TTSランキングで1位を獲得

人工知能の急速な発展に伴い、音声合成技術がますます注目されています。最近、Hugging FaceプラットフォームでKokoroという最新のテキスト音声変換（TTS）モデルが正式にリリースされました。このモデルは8200万パラメーターを備え、音声合成分野における重要なマイルストーンを意味します。

Kokoro v0.19はリリースの数週間前、TTS分野のランキングで1位を獲得し、パラメーター数の多い他のモデルを凌駕する性能を示しました。このモデルはモノラル設定で、わずか100時間未満のオーディオデータを使用して、4億6700万パラメーターのXTTS v2や12億パラメーターのMetaVoiceなどのモデルに匹敵する効果を実現しました。この成果は、従来の音声合成モデルのパフォーマンスとパラメーター数、計算量、データ量の関係が、これまでの予想以上に顕著であることを示唆しています。

使用方法としては、Google Colabで数行のコードを実行するだけで、モデルと音声パックを読み込み、高品質のオーディオを生成できます。Kokoroは現在、アメリカ英語とイギリス英語に対応しており、複数の音声パックを選択できます。

Kokoroのトレーニングプロセスには、Vast.aiのA100 80GB vRAMインスタンスを使用し、レンタルコストは比較的低く抑えられ、効率的なトレーニングプロセスが確保されました。モデル全体のトレーニングには、20回未満のトレーニングサイクルと100時間未満のオーディオデータしか使用されていません。Kokoroモデルのトレーニングには、パブリックドメインのオーディオデータとその他のオープンライセンスのオーディオデータが使用され、データのコンプライアンスが確保されています。

Kokoroは音声合成において優れた性能を示していますが、トレーニングデータとアーキテクチャの制約により、現在、音声クローンはサポートされていません。また、主要なトレーニングデータは長文の朗読とナレーションに集中しており、会話には対応していません。

モデル: https://huggingface.co/hexgrad/Kokoro-82M

体験: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

要点:
🌟 Kokoro-82Mは、8200万パラメーターを備え、複数の音声パックに対応した、新しくリリースされた音声合成モデルです。
🎤 このモデルはTTS分野で卓越した性能を示し、ランキングで1位を獲得しました。トレーニングにはわずか100時間未満のオーディオデータしか使用されていません。
📊 Kokoroモデルのトレーニングにはオープンライセンスのデータが使用され、コンプライアンスが確保されていますが、現在いくつかの機能制限があります。

AIニュース

小型テキスト読み上げモデルKokoro-TTS、TTSランキングで1位を獲得

AIbase基地

関連AIニュースの推奨

雷軍、7日間のAIに関する発言に国民の反響、AI顔交換・音声合成技術の法整備を求める声

マクドナルド、AI技術でレストラン運営効率向上

AI技術でインド人従業員のアクセントをリアルタイム修正、世界最大のコールセンター運営会社が導入

テキスト読み上げシステムSpark-TTS：ゼロショット音声クローンと詳細な制御に対応