La Universidad de Wuhan, en colaboración con el equipo de inteligencia artificial Jiu Tian de China Mobile y la Universidad Duke de Kunshan, ha publicado VoxBlink2, un conjunto de datos de reconocimiento de voz y video con más de 110.000 horas de datos de YouTube. Este conjunto de datos contiene 9.904.382 fragmentos de audio de alta calidad y sus correspondientes fragmentos de video, provenientes de 111.284 usuarios de YouTube, convirtiéndose en el conjunto de datos de reconocimiento de voz y video de acceso público más grande hasta la fecha. La publicación de este conjunto de datos tiene como objetivo enriquecer el corpus de voz de código abierto y respaldar el entrenamiento de modelos de voz a gran escala.
El conjunto de datos VoxBlink2 se obtuvo mediante los siguientes pasos de minería de datos:
Preparación de candidatos: Recopilación de listas de palabras clave en múltiples idiomas, búsqueda de videos de usuarios y selección del primer minuto de video para su procesamiento.
Extracción y detección de rostros: Extracción de fotogramas de video a alta velocidad de fotogramas, detección de rostros utilizando MobileNet y aseguramiento de que la pista de video solo contenga un único hablante.
Reconocimiento facial: Reconocimiento por fotograma utilizando un reconocedor facial preentrenado para asegurar que los fragmentos de audio y video provengan de la misma persona.
Detección de hablantes activos: Utilización de secuencias de movimiento labial y audio, mediante un detector de hablantes activos multimodal para obtener fragmentos de voz y eliminación de fragmentos con múltiples hablantes mediante la detección de superposición.
Para mejorar la precisión de los datos, se introdujo un paso de derivación con un reconocedor facial interno. Mediante la extracción aproximada de rostros, la verificación facial, el muestreo facial y el entrenamiento, se logró aumentar la precisión del 72% al 92%.
VoxBlink2 también incluye modelos de voz de diferentes tamaños, incluyendo modelos de convolución 2D basados en ResNet, modelos temporales basados en ECAPA-TDNN y un modelo ResNet293 de gran tamaño basado en Simple Attention Module. Estos modelos, después del posprocesamiento en el conjunto de datos Vox1-O, alcanzan un EER de 0,17% y un minDCF de 0,006%.
Sitio web del conjunto de datos: https://VoxBlink2.github.io
Método de descarga del conjunto de datos: https://github.com/VoxBlink2/ScriptsForVoxBlink2
Metadatos y modelos: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
Dirección del artículo: https://arxiv.org/abs/2407.11510