El laboratorio Tongyi de Alibaba Damo Academy ha anunciado recientemente la publicación de código abierto de una tecnología de procesamiento de voz llamada ClearerVoice-Studio, diseñada para mejorar la calidad y la inteligibilidad del habla. Con la amplia aplicación de la tecnología de voz, la calidad del habla es cada vez más importante, especialmente en entornos con ruido ambiental, reverberación y problemas de captación de audio, donde la necesidad de tecnologías de procesamiento de voz es cada vez más urgente.
ClearerVoice-Studio integra funciones de mejora de voz, separación de voz y extracción de hablantes de audio y vídeo. Mediante la fusión de algoritmos de aprendizaje profundo en el dominio complejo, mejora significativamente el rendimiento de la reducción de ruido y la separación de voz. Esta tecnología puede eliminar al máximo el ruido de fondo, manteniendo la claridad del habla y minimizando la distorsión.
Los modelos y algoritmos centrales de ClearerVoice-Studio incluyen el modelo FRCRN, que obtuvo el segundo lugar general en el IEEE/INTER Speech DNS Challenge 2022, y la serie de modelos MossFormer, que destaca en tareas de separación de voz. El modelo de mejora de voz de 48 kHz basado en MossFormer2 suprime eficazmente el ruido y reduce significativamente la distorsión del habla.
El laboratorio Tongyi de Alibaba espera que la plataforma ClearerVoice-Studio proporcione a desarrolladores, investigadores y empresas potentes herramientas de procesamiento de voz para impulsar la implementación de aplicaciones innovadoras. Los usuarios pueden experimentar una demostración en línea: preparar un archivo de audio con ruido, subirlo a la página especificada, procesarlo con un solo clic y escuchar o descargar los resultados en línea para obtener una calidad de audio nítida y un excelente efecto de reducción de ruido.
Repositorio GitHub:https://github.com/modelscope/ClearerVoice-Studio
Demostración en línea:https://huggingface.co/spaces/alibabasglab/ClearVoice