No mundo de rápido desenvolvimento da tecnologia, a síntese de voz também está avançando, especialmente na área de recuperação de vozes perdidas. Recentemente, pesquisadores do Google apresentaram uma nova tecnologia chamada "transferência de voz zero-shot", que pode ser combinada diretamente com sistemas de texto para fala (TTS) de última geração para ajudar pessoas que perderam a voz devido a doenças ou acidentes a recuperar suas "memórias sonoras".

O cerne desta tecnologia reside na capacidade "zero-shot", o que significa que não precisamos de uma grande quantidade de amostras para realizar a conversão de voz. Em outras palavras, apenas alguns segundos de áudio de referência são suficientes para clonar uma voz e suportar a síntese de áudio multilíngue.

Capacidade de clonagem de voz "zero-shot"

A equipe de pesquisa utilizou amostras de áudio do banco de dados de voz VCTK para demonstrar a poderosa funcionalidade desta tecnologia. Por exemplo, usando sistemas de áudio pré-gravados em mandarim, inglês e espanhol, é possível simular as características sonoras dessas línguas e gerar fala sintética semelhante à original.

image.png

Link do projeto: https://google.github.io/tacotron/publications/zero_shot_voice_transfer/

Surpreendentemente, embora a conversão seja limitada a uma única língua, a pesquisa também demonstrou a capacidade multilíngue. Por exemplo, a equipe usou amostras de voz em inglês para sintetizar amostras de voz em francês, alemão e até mesmo árabe, com resultados impressionantes.

Para verificar a eficácia da tecnologia, os pesquisadores conduziram numerosos experimentos, incluindo colaborações com falantes com pronúncias especiais. Eles geraram vozes semelhantes usando apenas amostras de áudio de 12 e 14 segundos, demonstrando a poderosa adaptabilidade desta tecnologia.

Nos testes, os pesquisadores expandiram a tecnologia para seis idiomas diferentes, demonstrando ainda mais sua flexibilidade e utilidade.

Exemplos multilíngues:

A popularização desta tecnologia não apenas ajudará pessoas com afonia a recuperar suas vozes, mas também abrirá novas possibilidades para a comunicação interlínguas, melhorando a eficiência e a conveniência da comunicação sem barreiras. Pode-se dizer que o surgimento da tecnologia de transferência de voz zero-shot tornará nossas vidas mais ricas e coloridas, permitindo que todos naveguem no oceano da linguagem e desfrutem do prazer da comunicação.

Destaques

🎤 **Tecnologia de transferência de voz zero-shot:** Uma tecnologia de síntese de voz que não requer um grande número de amostras e pode ajudar pessoas com afonia a recuperar suas vozes.

🌍 **Capacidade multilíngue:** A tecnologia pode realizar a conversão de voz entre diferentes idiomas, enriquecendo enormemente as possibilidades de comunicação de voz.

🗣️ **Aplicação para falantes com pronúncias especiais:** Usando amostras de voz curtas, a equipe conseguiu sintetizar com sucesso a fala de falantes com pronúncias especiais, demonstrando a adaptabilidade e flexibilidade da tecnologia.