En el mundo de la comunicación en tiempo real, ya sea por teléfono o videoconferencia, el sonido es una herramienta fundamental para expresarnos. Pero, ¿alguna vez ha considerado la posibilidad de cambiar el timbre de voz del hablante en tiempo real sin afectar el contenido lingüístico ni el ritmo? La tecnología StreamVC hace esto posible.

StreamVC es una solución innovadora de conversión de voz que permite emparejar el timbre de voz de destino manteniendo el contenido y el ritmo del habla original. A diferencia de los métodos tradicionales, StreamVC genera formas de onda de baja latencia en la señal de entrada, incluso en plataformas móviles, lo que la hace adecuada para escenarios de comunicación en tiempo real como llamadas telefónicas y videoconferencias, así como para la anonimización de voz en estos contextos.

Aspectos destacados de la tecnología:

Tiempo real: StreamVC puede lograr una inferencia de baja latencia de 70.8 milisegundos en dispositivos móviles.

Síntesis de voz de alta calidad: Se utiliza la arquitectura y la estrategia de entrenamiento del códec de audio neuronal SoundStream para lograr una síntesis de voz ligera y de alta calidad.

Estabilidad de tono: Al introducir información de frecuencia fundamental blanqueada (f0), se mejora la consistencia del tono sin revelar información sobre el timbre del hablante original.

image.png

El diseño de StreamVC se inspira en Soft-VC y SoundStream. Utiliza unidades de habla discretas extraídas con el modelo HuBERT como objetivo de predicción de la red codificadora de contenido. La arquitectura del codificador y decodificador de contenido, así como la estrategia de entrenamiento, adoptan el diseño del códec de audio neuronal SoundStream para lograr una síntesis de audio causal de alta calidad.

StreamVC se comparó con las tecnologías existentes en varias pruebas de referencia, incluyendo la naturalidad, la inteligibilidad, la similitud del hablante y la consistencia del tono. Los resultados experimentales muestran que StreamVC destaca en mantener el tono del habla original y es comparable a los modelos ajustados en términos de similitud del hablante.

StreamVC demuestra que la conversión de voz eficiente con baja latencia en dispositivos móviles es totalmente factible. Las unidades de habla suaves derivadas de HuBERT se pueden aprender mediante una arquitectura de red neuronal convolucional causal transmisible, y la inyección de información f0 blanqueada en el decodificador es crucial para producir una salida de alta calidad.

Enlace al artículo: https://arxiv.org/pdf/2401.03078