Une équipe de recherche de l'Université Tsinghua a récemment publié SonicSim, une plateforme de simulation de sources sonores mobiles, visant à résoudre le problème du manque de données dans le domaine du traitement de la parole en scénarios de sources sonores mobiles.

Cette plateforme, basée sur la plateforme de simulation Habitat-sim, permet de simuler de manière très réaliste des environnements acoustiques réels, fournissant ainsi un support de données de meilleure qualité pour l'entraînement et l'évaluation des modèles de séparation et d'amélioration de la parole.

Les ensembles de données actuels de séparation et d'amélioration de la parole sont principalement basés sur des sources sonores statiques, ce qui ne répond pas aux besoins des scénarios de sources sonores mobiles.

Bien que des ensembles de données enregistrés en situation réelle existent, leur taille est limitée et leur acquisition coûteuse. En revanche, les ensembles de données synthétiques, bien que plus volumineux, présentent souvent un manque de réalisme dans la simulation acoustique, ne reflétant pas fidèlement les caractéristiques acoustiques des environnements réels.

image.png

La plateforme SonicSim résout efficacement ces problèmes. Elle permet de simuler divers environnements acoustiques complexes, incluant l'obstruction par des obstacles, la géométrie des pièces et les propriétés d'absorption, de réflexion et de diffusion du son par différents matériaux. Elle permet également aux utilisateurs de personnaliser la disposition des scènes, la position des sources sonores et des microphones, ainsi que le type de microphones.

image.png

Sur la base de la plateforme SonicSim, l'équipe de recherche a également créé un vaste ensemble de données de sources sonores mobiles multi-scènes appelé SonicSet.

Cet ensemble de données utilise des données vocales et de bruit provenant de LibriSpeech, Freesound Dataset50k et Free Music Archive, ainsi que 90 scènes réelles issues de l'ensemble de données Matterport3D. Il contient des données riches en parole, en bruit ambiant et en bruit musical.

Le processus de création de l'ensemble de données SonicSet est hautement automatisé. Il permet de générer aléatoirement la position des sources sonores et des microphones, ainsi que la trajectoire de mouvement des sources sonores, garantissant ainsi la fiabilité et la diversité des données.

image.png

Pour valider l'efficacité de la plateforme SonicSim et de l'ensemble de données SonicSet, l'équipe de recherche a mené de nombreuses expériences sur des tâches de séparation et d'amélioration de la parole.

Les résultats montrent que les modèles entraînés sur l'ensemble de données SonicSet ont obtenu de meilleures performances sur des ensembles de données enregistrées en situation réelle, démontrant ainsi que la plateforme SonicSim permet de simuler efficacement les environnements acoustiques réels et fournit un soutien puissant à la recherche dans le domaine du traitement de la parole.

La publication de la plateforme SonicSim et de l'ensemble de données SonicSet représente une avancée majeure dans le domaine du traitement de la parole. Avec l'amélioration constante des outils de simulation et l'optimisation des algorithmes de modélisation, les applications futures des technologies de traitement de la parole dans des environnements complexes seront encore plus poussées.

Cependant, le réalisme de la plateforme SonicSim reste limité par les détails de la modélisation 3D des scènes. Lorsque les scènes 3D importées présentent des structures manquantes ou incomplètes, la plateforme ne peut pas simuler avec précision les effets de réverbération de l'environnement.

Adresse de l'article : https://arxiv.org/pdf/2410.01481