Uma equipe de pesquisa da Universidade Tsinghua lançou recentemente o SonicSim, uma plataforma de simulação de fontes de áudio móveis, projetada para resolver o problema da escassez de dados em cenários de fontes de áudio móveis no campo do processamento de voz.
Construída com base na plataforma de simulação Habitat-sim, essa plataforma pode simular ambientes acústicos do mundo real com alta fidelidade, fornecendo suporte de dados de melhor qualidade para o treinamento e avaliação de modelos de separação e aprimoramento de voz.
A maioria dos conjuntos de dados existentes de separação e aprimoramento de voz são baseados em fontes de áudio estáticas, o que não atende às necessidades de cenários com fontes de áudio móveis.
Embora existam alguns conjuntos de dados gravados em situações reais, seu tamanho é limitado e o custo de aquisição é alto. Em contraste, embora os conjuntos de dados sintéticos sejam maiores, sua simulação acústica geralmente não é realista o suficiente e não consegue refletir com precisão as características acústicas do ambiente real.
O lançamento do SonicSim resolve efetivamente os problemas acima mencionados. A plataforma pode simular vários ambientes acústicos complexos, incluindo obstruções, geometria da sala e as características de absorção, reflexão e dispersão do som por diferentes materiais, e permite que os usuários personalizem o layout da cena, a posição da fonte de som e do microfone, e o tipo de microfone.
Com base na plataforma SonicSim, a equipe de pesquisa também construiu um grande conjunto de dados de fontes de áudio móveis multi-cenário chamado SonicSet.
Este conjunto de dados utiliza dados de voz e ruído do LibriSpeech, Freesound Dataset50k e Free Music Archive, e 90 cenas reais do conjunto de dados Matterport3D, incluindo uma variedade de dados de voz, ruído ambiental e ruído musical.
O processo de construção do conjunto de dados SonicSet é altamente automatizado, podendo gerar aleatoriamente a posição da fonte de som e do microfone, bem como a trajetória de movimento da fonte de som, garantindo a autenticidade e a diversidade dos dados.
Para verificar a eficácia da plataforma SonicSim e do conjunto de dados SonicSet, a equipe de pesquisa realizou uma grande quantidade de experimentos em tarefas de separação e aprimoramento de voz.
Os resultados mostraram que os modelos treinados no conjunto de dados SonicSet obtiveram um desempenho superior em conjuntos de dados gravados no mundo real, demonstrando que a plataforma SonicSim pode simular efetivamente ambientes acústicos do mundo real e fornecer um forte suporte para a pesquisa na área de processamento de voz.
O lançamento da plataforma SonicSim e do conjunto de dados SonicSet trouxe novos avanços para a pesquisa em processamento de voz. Com a melhoria contínua das ferramentas de simulação e a otimização dos algoritmos de modelo, o futuro impulsionará ainda mais o uso da tecnologia de processamento de voz em ambientes complexos.
No entanto, o realismo da plataforma SonicSim ainda é limitado pelos detalhes da modelagem de cenas 3D. Quando a cena 3D importada apresenta estruturas ausentes ou incompletas, a plataforma não consegue simular com precisão o efeito de reverberação do ambiente atual.
Endereço do artigo: https://arxiv.org/pdf/2410.01481