A Universidade de Wuhan, em colaboração com a equipe de inteligência artificial Jiu Tian da China Mobile e a Universidade Duke de Kunshan, lançou o VoxBlink2, um conjunto de dados de reconhecimento de locutor de áudio e vídeo com mais de 110.000 horas, baseado em dados do YouTube. Este conjunto de dados contém 9.904.382 fragmentos de áudio de alta qualidade e seus correspondentes fragmentos de vídeo, de 111.284 usuários do YouTube, sendo atualmente o maior conjunto de dados de reconhecimento de locutor de áudio e vídeo de acesso público disponível. O lançamento do conjunto de dados visa enriquecer o repositório de recursos de fala de código aberto e apoiar o treinamento de grandes modelos de voiceprint.

微信截图_20240726092359.png

O conjunto de dados VoxBlink2 foi criado através dos seguintes passos de mineração de dados:

  1. Preparação de candidatos: Coleta de listas de palavras-chave multilíngues, busca de vídeos de usuários e seleção do primeiro minuto de vídeo para processamento.

  2. Extração e detecção de rostos: Extração de quadros de vídeo em alta taxa de quadros, detecção de rostos usando MobileNet, garantindo que a trilha de vídeo contenha apenas um único locutor.

  3. Reconhecimento facial: Reconhecimento quadro a quadro usando um reconhecedor facial pré-treinado, garantindo que os fragmentos de áudio e vídeo sejam da mesma pessoa.

  4. Detecção de locutor ativo: Utilização de sequências de movimento labial e áudio, através de um detector de locutor ativo multimodal para gerar fragmentos de fala e detecção de mistura para remover fragmentos com múltiplos locutores.

Para melhorar a precisão dos dados, foi introduzida uma etapa de desvio do reconhecedor facial interno, através de extração grosseira de rostos, verificação facial, amostragem facial e treinamento, aumentando a precisão de 72% para 92%.

O VoxBlink2 também disponibiliza modelos de voiceprint de diferentes tamanhos, incluindo modelos de convolução 2D baseados em ResNet e modelos temporais baseados em ECAPA-TDNN, bem como o modelo ResNet293 extra grande baseado em Simple Attention Module. Esses modelos, após o pós-processamento no conjunto de dados Vox1-O, alcançam uma taxa de erro igualização (EER) de 0,17% e um minDCF de 0,006%.

Website do conjunto de dados: https://VoxBlink2.github.io

Como baixar o conjunto de dados: https://github.com/VoxBlink2/ScriptsForVoxBlink2

Metadados e modelos: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP

Endereço do artigo: https://arxiv.org/abs/2407.11510