Modelo de texto para fala de pequeno porte, Kokoro-TTS, já alcançou o primeiro lugar no ranking de TTS

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Jan 15, 2025

1.5k

Com o rápido desenvolvimento da inteligência artificial, a tecnologia de síntese de voz está recebendo cada vez mais atenção. Recentemente, um novo modelo de síntese de voz chamado Kokoro foi lançado oficialmente na plataforma Hugging Face. Este modelo possui 82 milhões de parâmetros, marcando um marco importante no campo da síntese de voz.

Nas semanas anteriores ao seu lançamento, o Kokoro v0.19 ocupou o primeiro lugar no ranking do campo de TTS (texto para fala), superando até mesmo modelos com mais parâmetros. Em configuração mono, com menos de 100 horas de dados de áudio, ele alcançou resultados comparáveis aos modelos XTTS v2 (467M de parâmetros) e MetaVoice (1,2B de parâmetros). Essa conquista sugere que a relação entre o desempenho dos modelos tradicionais de síntese de voz, a quantidade de parâmetros, a capacidade de computação e a quantidade de dados pode ser mais significativa do que se previa.

Para usar, basta executar algumas linhas de código no Google Colab para carregar o modelo e o pacote de voz e gerar áudio de alta qualidade. Atualmente, o Kokoro suporta inglês americano e inglês britânico, oferecendo vários pacotes de voz para o usuário escolher.

O treinamento do Kokoro utilizou instâncias A100 80GB vRAM do Vast.ai, com custo de aluguel relativamente baixo, garantindo um processo de treinamento eficiente. O treinamento do modelo inteiro utilizou menos de 20 ciclos de treinamento e menos de 100 horas de dados de áudio. O modelo Kokoro utilizou dados de áudio de domínio público e outros áudios com licenças abertas durante o treinamento, garantindo a conformidade dos dados.

Embora o Kokoro apresente um desempenho excelente em síntese de voz, devido às limitações de seus dados de treinamento e arquitetura, atualmente não suporta clonagem de voz, e os dados de treinamento principais se concentram em leituras longas e narrativas, e não em diálogos.

Modelo: https://huggingface.co/hexgrad/Kokoro-82M

Experiência: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Destaques:
🌟 Kokoro-82M é um novo modelo de síntese de voz com 82 milhões de parâmetros, suportando vários pacotes de voz.
🎤 Este modelo apresenta desempenho excepcional na área de TTS, tendo alcançado o primeiro lugar no ranking, com treinamento realizado em menos de 100 horas de dados de áudio.
📊 O treinamento do modelo Kokoro utilizou dados com licenças abertas, garantindo a conformidade, mas ainda existem algumas limitações de funcionalidade.

Pronto para uso! Sistema de avatar digital IA AigcPanel com um clique, suporta síntese de voz e clonagem de voz

Ainda está tendo problemas com a configuração do ambiente de ferramentas de avatar digital de código aberto complexas? O surgimento do AigcPanel mudará completamente essa situação. Este sistema de avatar digital de IA de serviço completo, com suas características fáceis de usar, permite que todos os usuários o dominem facilmente. Com apenas um pacote de instalação, você pode resolver todos os problemas, dizer adeus à configuração complexa do ambiente e começar a usar apenas baixando o modelo, realmente realizando "pronto para uso". A função principal do AigcPanel está em sua poderosa capacidade de síntese de vídeo, síntese de voz e clonagem de voz. Os usuários podem gerar facilmente vídeos com avatares digitais

TuSimple lança modelo de vídeo a partir de imagem “Ruyi” e código aberto Ruyi-Mini-7B

A TuSimple, com sede em Pequim, lançou oficialmente em 17 de dezembro de 2024 seu primeiro modelo grande de “vídeo a partir de imagem” — “Ruyi”, e tornou o Ruyi-Mini-7B de código aberto para download e uso pelos usuários na plataforma huggingface. Fundada em 2015, a TuSimple tem sede em San Diego, Califórnia, EUA, e concentra-se na aplicação de tecnologia de IA em diversos setores, incluindo animação, jogos e transporte.

Nova tecnologia de clonagem de voz do Google: clone vozes com apenas alguns segundos de amostra de áudio

No mundo de rápida evolução da tecnologia, a síntese de voz também está avançando, especialmente na área de recuperação de vozes perdidas. Recentemente, pesquisadores do Google propuseram uma nova tecnologia chamada "conversão de voz zero-shot", que pode ser combinada diretamente com sistemas de texto para fala (TTS) de última geração para ajudar pessoas que perderam suas vozes devido a doenças ou acidentes a recuperar suas "memórias sonoras". O cerne desta tecnologia reside na capacidade "zero-shot", o que significa que não precisamos de uma grande quantidade de amostras para implementá-la.

Dubladores em perigo! O modelo de clonagem de voz VALL-E 2 da Microsoft atinge nível profissional

A Microsoft lançou recentemente o VALL-E 2, um modelo de texto para fala (TTS) de amostra zero, que gerou grande discussão no meio tecnológico e é considerado um marco no campo de TTS. A inovação do VALL-E 2 reside em sua capacidade de aprendizado zero-shot; com apenas um pequeno fragmento de amostra de voz desconhecida, ele consegue imitar a voz para dizer qualquer texto, alcançando uma imitação instantânea e agrupamento de codificadores impressionantes. Ele também aprimorou a amostragem com percepção de repetição, melhorando a estabilidade da decodificação e simplificando as necessidades de dados. Em testes de pontuação subjetiva e indicadores objetivos, o VALL-E 2 superou modelos anteriores.