वुहान विश्वविद्यालय ने चीन मोबाइल के नौ天 आर्टिफिशियल इंटेलिजेंस टीम और कंसान ड्यूक विश्वविद्यालय के सहयोग से YouTube डेटा पर आधारित 11 लाख घंटे से अधिक का ऑडियो-वीडियो स्पीकर पहचान डेटासेट VoxBlink2 ओपन-सोर्स किया है। इस डेटासेट में 9,904,382 उच्च गुणवत्ता वाले ऑडियो क्लिप और उनके संबंधित वीडियो क्लिप शामिल हैं, जो YouTube पर 111,284 उपयोगकर्ताओं से प्राप्त किए गए हैं, और यह वर्तमान में सबसे बड़ा सार्वजनिक रूप से उपलब्ध ऑडियो-वीडियो स्पीकर पहचान डेटासेट है। डेटासेट का विमोचन ओपन-सोर्स वॉयस कॉर्पस को समृद्ध करने और वॉयस प्रिंट बड़े मॉडल को प्रशिक्षित करने का समर्थन करने के उद्देश्य से किया गया है।
VoxBlink2 डेटासेट डेटा माइनिंग के निम्नलिखित चरणों के माध्यम से किया गया है:
उम्मीदवार तैयारी: बहुभाषी कीवर्ड सूची एकत्र करना, उपयोगकर्ता वीडियो को पुनर्प्राप्त करना, पहले एक मिनट के वीडियो को प्रोसेसिंग के लिए चुनना।
चेहरे की पहचान और检测: उच्च फ्रेम दर पर वीडियो फ्रेम निकालना, MobileNet का उपयोग करके चेहरे की पहचान करना, यह सुनिश्चित करना कि वीडियो ट्रैक में केवल एक ही स्पीकर हो।
चेहरे की पहचान: पूर्व-प्रशिक्षित चेहरे की पहचानकर्ता द्वारा फ्रेम दर से पहचान करना, यह सुनिश्चित करना कि ऑडियो-वीडियो क्लिप एक ही व्यक्ति से हैं।
सक्रिय स्पीकर पहचान: होंठों की गति अनुक्रम और ऑडियो का उपयोग करके, बहु-मोडल सक्रिय स्पीकर पहचानकर्ता द्वारा आवाज़ वाले क्लिप का उत्पादन करना, मिश्रण पहचान से कई स्पीकर क्लिप को हटाना।
डेटा की सटीकता बढ़ाने के लिए, चेहरे की पहचानकर्ता की बाईपास प्रक्रिया भी शामिल की गई है, जिसमें मोटे चेहरे की पहचान, चेहरे की सत्यापन, चेहरे का सैंपलिंग और प्रशिक्षण शामिल है, जिससे सटीकता को 72% से 92% तक बढ़ाया गया है।
VoxBlink2 ने विभिन्न आकार के वॉयस प्रिंट मॉडल भी ओपन-सोर्स किए हैं, जिसमें ResNet आधारित 2D कॉन्वोल्यूशन मॉडल और ECAPA-TDNN आधारित समय श्रृंखला मॉडल शामिल हैं, साथ ही Simple Attention Module पर आधारित सुपर-साइज मॉडल ResNet293 भी है। ये मॉडल Vox1-O डेटासेट पर पोस्ट-प्रोसेसिंग के बाद 0.17% EER और 0.006% minDCF तक पहुँच सकते हैं।
डेटासेट वेबसाइट:https://VoxBlink2.github.io
डेटासेट डाउनलोड करने का तरीका:https://github.com/VoxBlink2/ScriptsForVoxBlink2
मेटा फ़ाइलें और मॉडल:https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
शोध पत्र का पता:https://arxiv.org/abs/2407.11510