En el mundo de la tecnología en rápida evolución, la síntesis de voz también está avanzando, especialmente en el campo de la recuperación de la voz perdida. Recientemente, investigadores de Google presentaron una nueva tecnología llamada "transferencia de voz de muestra cero (zero-shot voice transfer)" que se puede combinar directamente con los sistemas de texto a voz (TTS) más avanzados para ayudar a las personas que han perdido la voz debido a enfermedades o accidentes a recuperar sus "recuerdos de voz".
El núcleo de esta tecnología radica en la capacidad de "muestra cero", lo que significa que no necesitamos una gran cantidad de muestras para lograr la conversión de voz. Es decir, solo se necesitan unos segundos de audio de referencia para clonar la voz, y admite la síntesis de audio entre idiomas.
Capacidad de clonación de voz "de muestra cero"
El equipo de investigación utilizó muestras de audio de la biblioteca de voz VCTK para mostrar la poderosa función de esta tecnología. Por ejemplo, utilizando un sistema de audio ya grabado en mandarín, inglés y español, se pueden simular las características de sonido de estos idiomas y generar voz sintética similar a la original.
Enlace al proyecto: https://google.github.io/tacotron/publications/zero_shot_voice_transfer/
Sorprendentemente, esta conversión no se limita a un solo idioma; la investigación también mostró la capacidad multilingüe. Por ejemplo, el equipo de investigación utilizó muestras de voz en inglés para sintetizar voz en francés, alemán e incluso árabe, con resultados sorprendentes.
Para verificar la eficacia de la tecnología, los investigadores realizaron numerosos experimentos, incluida la colaboración con hablantes con pronunciaciones especiales. Generaron voces similares utilizando solo muestras de audio de 12 y 14 segundos, lo que demuestra la gran adaptabilidad de esta tecnología.
En las pruebas, los investigadores extendieron esta tecnología a seis idiomas diferentes, mostrando aún más su flexibilidad y utilidad.
Ejemplos de soporte multilingüe:
La promoción de esta tecnología no solo puede ayudar a las personas con afonía a recuperar su voz, sino que también abre nuevas posibilidades para la comunicación entre idiomas, mejorando la eficiencia y la comodidad de la comunicación sin barreras. Se puede decir que la aparición de la tecnología de transferencia de voz de muestra cero hará que nuestras vidas sean más ricas y coloridas, permitiendo que todos puedan navegar por el océano del lenguaje y disfrutar del placer de la comunicación.
Puntos clave
🎤 **Tecnología de transferencia de voz de muestra cero:** Una tecnología de síntesis de voz que no requiere una gran cantidad de muestras y puede ayudar a las personas con afonía a recuperar su voz.
🌍 **Capacidad multilingüe:** La tecnología puede realizar la conversión de voz entre diferentes idiomas, enriqueciendo enormemente las posibilidades de comunicación de voz.
🗣️ **Aplicación a hablantes con pronunciaciones especiales:** El equipo sintetizó con éxito la voz de hablantes con pronunciaciones especiales utilizando muestras de audio de corta duración, mostrando la adaptabilidad y la flexibilidad de la tecnología.