Die Wuhan-Universität hat in Zusammenarbeit mit dem chinesischen Mobilfunkanbieter China Mobile's Jiutian AI-Team und der Kunshan Duke University den VoxBlink2-Datensatz veröffentlicht, ein Open-Source-Dataset mit über 110.000 Stunden Audio- und Videodaten zur Sprechererkennung, basierend auf YouTube-Daten. Dieser Datensatz enthält 9.904.382 hochwertige Audiosegmente und die dazugehörigen Videosegmente von 111.284 Nutzern auf YouTube und ist derzeit der größte öffentlich verfügbare Audio-Video-Datensatz zur Sprechererkennung. Die Veröffentlichung des Datensatzes soll die Open-Source-Sprachdatenbank erweitern und das Training von großen Sprachmodellen unterstützen.
Der VoxBlink2-Datensatz wurde durch folgende Schritte erstellt:
Kandidatenvorbereitung: Sammeln von mehrsprachigen Stichwortlisten, Abrufen von Benutzervideos und Auswahl der ersten Minute des Videos zur Verarbeitung.
Gesichtserkennung & -detektion: Hochfrequentes Extrahieren von Videobildern, Verwendung von MobileNet zur Gesichtsdetektion, um sicherzustellen, dass der Videostream nur einen einzelnen Sprecher enthält.
Gesichtserkennung: Bilderkennung mit einem vorab trainierten Gesichtserkennungsmodell, um sicherzustellen, dass Audio- und Videosegmente von derselben Person stammen.
Aktiver Sprecherdetektor: Verwendung von Lippenbewegungssequenzen und Audiodaten durch einen multimodalen aktiven Sprecherdetektor, um Sprachsegmente auszugeben und Segmente mit mehreren Sprechern durch Mischungsdetektion zu entfernen.
Um die Genauigkeit der Daten zu verbessern, wurde ein zusätzlicher Schritt mit einem internen Gesichtserkennungsmodell eingeführt. Durch grobe Gesichtserkennung, Gesichtsverifizierung, Gesichtsauswahl und Training konnte die Genauigkeit von 72 % auf 92 % gesteigert werden.
VoxBlink2 stellt auch Sprachmodelle unterschiedlicher Größe zur Verfügung, darunter ein 2D-Faltungsmodell basierend auf ResNet, ein zeitliches Modell basierend auf ECAPA-TDNN und ein sehr großes Modell ResNet293 basierend auf Simple Attention Module. Diese Modelle erreichen nach der Nachbearbeitung im Vox1-O-Datensatz eine EER von 0,17 % und einen minDCF von 0,006 %.
Website des Datensatzes: https://VoxBlink2.github.io
Download des Datensatzes: https://github.com/VoxBlink2/ScriptsForVoxBlink2
Metadaten und Modelle: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
Paper: https://arxiv.org/abs/2407.11510