वुहान विश्वविद्यालय ने चीन मोबाइल के नौ天 आर्टिफिशियल इंटेलिजेंस टीम और कंसान ड्यूक विश्वविद्यालय के सहयोग से YouTube डेटा पर आधारित 11 लाख घंटे से अधिक का ऑडियो-वीडियो स्पीकर पहचान डेटासेट VoxBlink2 ओपन-सोर्स किया है। इस डेटासेट में 9,904,382 उच्च गुणवत्ता वाले ऑडियो क्लिप और उनके संबंधित वीडियो क्लिप शामिल हैं, जो YouTube पर 111,284 उपयोगकर्ताओं से प्राप्त किए गए हैं, और यह वर्तमान में सबसे बड़ा सार्वजनिक रूप से उपलब्ध ऑडियो-वीडियो स्पीकर पहचान डेटासेट है। डेटासेट का विमोचन ओपन-सोर्स वॉयस कॉर्पस को समृद्ध करने और वॉयस प्रिंट बड़े मॉडल को प्रशिक्षित करने का समर्थन करने के उद्देश्य से किया गया है।

微信截图_20240726092359.png

VoxBlink2 डेटासेट डेटा माइनिंग के निम्नलिखित चरणों के माध्यम से किया गया है:

  1. उम्मीदवार तैयारी: बहुभाषी कीवर्ड सूची एकत्र करना, उपयोगकर्ता वीडियो को पुनर्प्राप्त करना, पहले एक मिनट के वीडियो को प्रोसेसिंग के लिए चुनना।

  2. चेहरे की पहचान और检测: उच्च फ्रेम दर पर वीडियो फ्रेम निकालना, MobileNet का उपयोग करके चेहरे की पहचान करना, यह सुनिश्चित करना कि वीडियो ट्रैक में केवल एक ही स्पीकर हो।

  3. चेहरे की पहचान: पूर्व-प्रशिक्षित चेहरे की पहचानकर्ता द्वारा फ्रेम दर से पहचान करना, यह सुनिश्चित करना कि ऑडियो-वीडियो क्लिप एक ही व्यक्ति से हैं।

  4. सक्रिय स्पीकर पहचान: होंठों की गति अनुक्रम और ऑडियो का उपयोग करके, बहु-मोडल सक्रिय स्पीकर पहचानकर्ता द्वारा आवाज़ वाले क्लिप का उत्पादन करना, मिश्रण पहचान से कई स्पीकर क्लिप को हटाना।

डेटा की सटीकता बढ़ाने के लिए, चेहरे की पहचानकर्ता की बाईपास प्रक्रिया भी शामिल की गई है, जिसमें मोटे चेहरे की पहचान, चेहरे की सत्यापन, चेहरे का सैंपलिंग और प्रशिक्षण शामिल है, जिससे सटीकता को 72% से 92% तक बढ़ाया गया है।

VoxBlink2 ने विभिन्न आकार के वॉयस प्रिंट मॉडल भी ओपन-सोर्स किए हैं, जिसमें ResNet आधारित 2D कॉन्वोल्यूशन मॉडल और ECAPA-TDNN आधारित समय श्रृंखला मॉडल शामिल हैं, साथ ही Simple Attention Module पर आधारित सुपर-साइज मॉडल ResNet293 भी है। ये मॉडल Vox1-O डेटासेट पर पोस्ट-प्रोसेसिंग के बाद 0.17% EER और 0.006% minDCF तक पहुँच सकते हैं।

डेटासेट वेबसाइट:https://VoxBlink2.github.io

डेटासेट डाउनलोड करने का तरीका:https://github.com/VoxBlink2/ScriptsForVoxBlink2

मेटा फ़ाइलें और मॉडल:https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP

शोध पत्र का पता:https://arxiv.org/abs/2407.11510