La empresa de inteligencia artificial Cartesia ha lanzado recientemente un modelo de conversión de voz llamado "Voice Changer". A diferencia de las conversiones de voz tradicionales, este modelo no solo convierte la voz de entrada en la voz objetivo, sino que también conserva las características expresivas del sonido original, como el tono y el énfasis.
Según la información oficial de Cartesia, los usuarios pueden probar esta función en el sitio web play.cartesia.ai. Actualmente, la compañía ha publicado la documentación de la API, que los desarrolladores pueden consultar en docs.cartesia.ai.
Hemos observado que este tipo de tecnología de conversión que conserva las características del habla no es común en el mercado. La mayoría de las herramientas existentes suelen perder los cambios de tono del hablante al convertir el sonido, lo que hace que el sonido convertido suene mecánico.
Cartesia ha detallado el método de implementación de esta tecnología en su blog. Sin embargo, la empresa aún no ha respondido a las posibles implicaciones éticas de esta tecnología, como la imitación de voces sin autorización.