Un equipo de investigación de la Universidad Tsinghua ha publicado recientemente SonicSim, una plataforma de simulación de fuentes de audio móviles, diseñada para abordar la escasez de datos en el campo del procesamiento de voz en escenarios con fuentes de audio móviles.
Esta plataforma, construida sobre la plataforma de simulación Habitat-sim, puede simular con alta fidelidad entornos acústicos del mundo real, proporcionando un soporte de datos de mayor calidad para el entrenamiento y la evaluación de modelos de separación y mejora de voz.
La mayoría de los conjuntos de datos existentes para la separación y mejora de voz se basan en fuentes de audio estáticas, lo que dificulta satisfacer las necesidades de escenarios con fuentes de audio móviles.
Si bien existen algunos conjuntos de datos grabados en el mundo real, su tamaño es limitado y su recopilación es costosa. En cambio, aunque los conjuntos de datos sintéticos son más grandes, a menudo carecen de realismo en la simulación acústica, lo que dificulta la representación precisa de las características acústicas del entorno real.
La aparición de la plataforma SonicSim resuelve eficazmente estos problemas. Esta plataforma puede simular una variedad de entornos acústicos complejos, incluyendo obstrucciones, geometría de la habitación y las propiedades de absorción, reflexión y dispersión del sonido de diferentes materiales, y permite a los usuarios personalizar la disposición de la escena, la posición de las fuentes de audio y los micrófonos, y el tipo de micrófono.
Basándose en la plataforma SonicSim, el equipo de investigación también ha creado un gran conjunto de datos de fuentes de audio móviles multi-escena llamado SonicSet.
Este conjunto de datos utiliza datos de voz y ruido de LibriSpeech, Freesound Dataset50k y Free Music Archive, y 90 escenas reales del conjunto de datos Matterport3D, incluyendo una rica variedad de datos de voz, ruido ambiental y ruido musical.
El proceso de creación del conjunto de datos SonicSet está altamente automatizado, pudiendo generar aleatoriamente la posición de las fuentes de audio y los micrófonos, así como la trayectoria de movimiento de las fuentes de audio, lo que garantiza la autenticidad y la diversidad de los datos.
Para verificar la eficacia de la plataforma SonicSim y el conjunto de datos SonicSet, el equipo de investigación realizó una gran cantidad de experimentos en tareas de separación y mejora de voz.
Los resultados muestran que los modelos entrenados en el conjunto de datos SonicSet lograron un rendimiento superior en conjuntos de datos grabados en el mundo real, demostrando que la plataforma SonicSim puede simular eficazmente entornos acústicos del mundo real y proporcionar un fuerte apoyo a la investigación en el campo del procesamiento de voz.
La publicación de la plataforma SonicSim y el conjunto de datos SonicSet supone un nuevo avance en la investigación del procesamiento de voz. Con la mejora continua de las herramientas de simulación y la optimización de los algoritmos de los modelos, se impulsará aún más el uso de la tecnología de procesamiento de voz en entornos complejos en el futuro.
Sin embargo, el realismo de la plataforma SonicSim todavía está limitado por los detalles del modelado 3D de las escenas. Cuando los modelos 3D importados presentan estructuras incompletas o faltantes, la plataforma no puede simular con precisión los efectos de reverberación del entorno.
Enlace del artículo: https://arxiv.org/pdf/2410.01481