Com o rápido desenvolvimento da inteligência artificial, a tecnologia de síntese de voz está recebendo cada vez mais atenção. Recentemente, um novo modelo de síntese de voz chamado Kokoro foi lançado oficialmente na plataforma Hugging Face. Este modelo possui 82 milhões de parâmetros, marcando um marco importante no campo da síntese de voz.

Nas semanas anteriores ao seu lançamento, o Kokoro v0.19 ocupou o primeiro lugar no ranking do campo de TTS (texto para fala), superando até mesmo modelos com mais parâmetros. Em configuração mono, com menos de 100 horas de dados de áudio, ele alcançou resultados comparáveis aos modelos XTTS v2 (467M de parâmetros) e MetaVoice (1,2B de parâmetros). Essa conquista sugere que a relação entre o desempenho dos modelos tradicionais de síntese de voz, a quantidade de parâmetros, a capacidade de computação e a quantidade de dados pode ser mais significativa do que se previa.

Para usar, basta executar algumas linhas de código no Google Colab para carregar o modelo e o pacote de voz e gerar áudio de alta qualidade. Atualmente, o Kokoro suporta inglês americano e inglês britânico, oferecendo vários pacotes de voz para o usuário escolher.

O treinamento do Kokoro utilizou instâncias A100 80GB vRAM do Vast.ai, com custo de aluguel relativamente baixo, garantindo um processo de treinamento eficiente. O treinamento do modelo inteiro utilizou menos de 20 ciclos de treinamento e menos de 100 horas de dados de áudio. O modelo Kokoro utilizou dados de áudio de domínio público e outros áudios com licenças abertas durante o treinamento, garantindo a conformidade dos dados.

Embora o Kokoro apresente um desempenho excelente em síntese de voz, devido às limitações de seus dados de treinamento e arquitetura, atualmente não suporta clonagem de voz, e os dados de treinamento principais se concentram em leituras longas e narrativas, e não em diálogos.

Modelo: https://huggingface.co/hexgrad/Kokoro-82M

Experiência: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Destaques:

🌟 Kokoro-82M é um novo modelo de síntese de voz com 82 milhões de parâmetros, suportando vários pacotes de voz.

🎤 Este modelo apresenta desempenho excepcional na área de TTS, tendo alcançado o primeiro lugar no ranking, com treinamento realizado em menos de 100 horas de dados de áudio.

📊 O treinamento do modelo Kokoro utilizou dados com licenças abertas, garantindo a conformidade, mas ainda existem algumas limitações de funcionalidade.