L'université de Wuhan, en collaboration avec l'équipe d'intelligence artificielle Nine Heavens de China Mobile et l'université Duke Kunshan, a publié en open source VoxBlink2, un ensemble de données d'identification de locuteur audio-vidéo de plus de 110 000 heures basé sur les données YouTube. Cet ensemble de données contient 9 904 382 segments audio de haute qualité et leurs segments vidéo correspondants, provenant de 111 284 utilisateurs YouTube. Il s'agit actuellement du plus grand ensemble de données d'identification de locuteur audio-vidéo ouvertement disponible. La publication de cet ensemble de données vise à enrichir les corpus de parole open source et à soutenir l'entraînement de grands modèles de reconnaissance vocale.
L'ensemble de données VoxBlink2 a été constitué selon les étapes suivantes :
Préparation des candidats : Collecte de listes de mots clés multilingues, recherche de vidéos d'utilisateurs et sélection de la première minute de chaque vidéo pour le traitement.
Extraction et détection de visage : Extraction de frames vidéo à haute fréquence d'images, détection de visage à l'aide de MobileNet, assurant que la piste vidéo ne contient qu'un seul locuteur.
Reconnaissance faciale : Reconnaissance frame par frame à l'aide d'un système de reconnaissance faciale pré-entraîné, pour garantir que les segments audio et vidéo proviennent de la même personne.
Détection du locuteur actif : Utilisation de la séquence de mouvements des lèvres et de l'audio, via un détecteur de locuteur actif multimodal pour extraire les segments vocaux, et suppression des segments multi-locuteurs grâce à la détection de chevauchement.
Pour améliorer la précision des données, une étape de contournement avec un système de reconnaissance faciale interne a été introduite. Grâce à une extraction grossière des visages, une vérification faciale, un échantillonnage facial et un entraînement, la précision est passée de 72 % à 92 %.
VoxBlink2 publie également des modèles de reconnaissance vocale de différentes tailles, notamment un modèle de convolution 2D basé sur ResNet, un modèle temporel basé sur ECAPA-TDNN, et un très grand modèle ResNet293 basé sur le module Simple Attention. Après post-traitement sur l'ensemble de données Vox1-O, ces modèles atteignent un EER de 0,17 % et un minDCF de 0,006 %.
Site web de l'ensemble de données : https://VoxBlink2.github.io
Téléchargement de l'ensemble de données : https://github.com/VoxBlink2/ScriptsForVoxBlink2
Métadonnées et modèles : https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
Adresse de l'article : https://arxiv.org/abs/2407.11510