StreamVC es una solución de conversión de voz en tiempo real con baja latencia desarrollada por Google. Permite mantener el contenido y el ritmo del audio original, al tiempo que empareja el timbre de la voz de destino. Esta tecnología es especialmente adecuada para escenarios de comunicación en tiempo real, como llamadas telefónicas y videoconferencias, y se puede utilizar en casos de uso como la anonimización de voz. StreamVC utiliza la arquitectura y las estrategias de entrenamiento del códec de audio neuronal SoundStream para lograr una síntesis de voz ligera y de alta calidad. También demuestra la causalidad del aprendizaje de unidades de voz suaves y la eficacia de proporcionar información de frecuencia fundamental blanqueada para mejorar la estabilidad del tono sin revelar la información del timbre de la voz original.