Ein Forschungsteam der Tsinghua-Universität hat kürzlich die mobile Schallquellensimulations-Plattform SonicSim veröffentlicht, um das Problem des Mangels an Daten in der Sprachverarbeitung bei Szenarien mit beweglichen Schallquellen zu lösen.

Diese Plattform basiert auf der Habitat-sim Simulations-Plattform und kann realistische akustische Umgebungen simulieren. Sie bietet somit eine bessere Datenbasis für das Training und die Evaluierung von Modellen zur Sprachseparation und -verbesserung.

Bestehende Datensätze zur Sprachseparation und -verbesserung basieren größtenteils auf statischen Schallquellen und genügen den Anforderungen von Szenarien mit beweglichen Schallquellen nicht.

Obwohl es im realen Leben einige real aufgenommene Datensätze gibt, sind diese begrenzt und ihre Erfassung ist teuer. Synthetische Datensätze sind zwar umfangreicher, aber ihre akustische Simulation ist oft nicht realistisch genug und spiegelt die akustischen Eigenschaften realer Umgebungen nicht genau wider.

image.png

SonicSim löst diese Probleme effektiv. Die Plattform simuliert komplexe akustische Umgebungen, einschließlich Hindernissen, Raumgeometrien und den Eigenschaften verschiedener Materialien bezüglich Absorption, Reflexion und Streuung von Schall. Sie erlaubt auch die benutzerdefinierte Einstellung von Szenenlayout, Positionen von Schallquelle und Mikrofon sowie Mikrofontyp.

image.png

Basierend auf SonicSim hat das Forschungsteam auch einen umfangreichen Datensatz mit beweglichen Schallquellen in verschiedenen Szenarien namens SonicSet erstellt.

Dieser Datensatz verwendet Sprach- und Geräuschdaten aus LibriSpeech, Freesound Dataset50k und Free Music Archive sowie 90 reale Szenen aus dem Matterport3D-Datensatz. Er enthält umfangreiche Sprach-, Umgebungsgeräusch- und Musikgeräuschdaten.

Die Erstellung von SonicSet ist hochgradig automatisiert. Die Positionen von Schallquelle und Mikrofon sowie die Bewegungstrajektorie der Schallquelle werden zufällig generiert, um die Realitätsnähe und Vielfalt der Daten zu gewährleisten.

image.png

Um die Effektivität von SonicSim und SonicSet zu überprüfen, führte das Forschungsteam zahlreiche Experimente zur Sprachseparation und -verbesserung durch.

Die Ergebnisse zeigen, dass Modelle, die mit SonicSet trainiert wurden, auf realen Datensätzen eine bessere Leistung erzielen. Dies beweist, dass SonicSim realistische akustische Umgebungen simulieren kann und die Forschung im Bereich der Sprachverarbeitung maßgeblich unterstützt.

Die Veröffentlichung von SonicSim und SonicSet ist ein Durchbruch in der Sprachverarbeitungsforschung. Durch die ständige Verbesserung von Simulationswerkzeugen und die Optimierung von Modellalgorithmen wird die Sprachverarbeitungstechnologie in komplexen Umgebungen zukünftig weiter vorangetrieben.

Die Realitätsnähe von SonicSim ist jedoch immer noch durch die Details der 3D-Szenenmodellierung begrenzt. Wenn importierte 3D-Szenen unvollständige Strukturen aufweisen, kann die Plattform den Nachhall in der Umgebung nicht genau simulieren.

论文地址/Paper address: https://arxiv.org/pdf/2410.01481