武漢大学、中国移動九天人工知能チーム、昆山杜克大学は共同で、YouTubeデータに基づいた11万時間以上の音声ビデオ話者認識データセットVoxBlink2をオープンソース化しました。このデータセットは、YouTubeの111,284人のユーザーから収集された、9,904,382個の高品質オーディオクリップとその対応するビデオクリップを含んでおり、現在公開されている中で最大の音声ビデオ話者認識データセットです。このデータセットの公開は、オープンソースの音声コーパスを充実させ、ボイスプリントの大規模モデルのトレーニングを支援することを目的としています。
VoxBlink2データセットは、以下の手順でデータマイニングが行われました。
候補者の準備:多言語キーワードリストを収集し、ユーザーのビデオを検索し、最初の1分間のビデオを処理に使用します。
顔の抽出と検出:高フレームレートでビデオフレームを抽出し、MobileNetを使用して顔を検出し、ビデオトラックに1人の話者のみが含まれるようにします。
顔認識:事前学習済みの顔認識器を使用してフレームごとに認識し、音声ビデオクリップが同一人物からのものであることを確認します。
アクティブスピーカー検出:唇の動きシーケンスとオーディオを使用して、マルチモーダルアクティブスピーカー検出器によって発話セグメントを出力し、混在検出によって複数話者セグメントを除去します。
データの精度を向上させるために、集合内顔認識器のバイパスステップも導入されました。粗い顔の抽出、顔の検証、顔のサンプリング、トレーニングを行うことで、精度は72%から92%に向上しました。
VoxBlink2は、ResNetベースの2D畳み込みモデル、ECAPA-TDNNベースの時系列モデル、Simple Attention Moduleベースの超大規模モデルResNet293など、さまざまなサイズのボイスプリントモデルもオープンソース化しています。これらのモデルは、Vox1-Oデータセットで後処理を行った後、0.17%のEERと0.006%のminDCFを達成します。
データセットウェブサイト:https://VoxBlink2.github.io
データセットのダウンロード方法:https://github.com/VoxBlink2/ScriptsForVoxBlink2
メタファイルとモデル:https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
論文アドレス:https://arxiv.org/abs/2407.11510