आज की तेजी से विकसित हो रही वॉयस सिंथेसिस तकनीक के संदर्भ में, वॉयस फॉर्जिंग बढ़ती जा रही है, जो उपयोगकर्ता की गोपनीयता और सामाजिक सुरक्षा के लिए एक बड़ा खतरा बन गई है। हाल ही में, झेजियांग विश्वविद्यालय के स्मार्ट सिस्टम सुरक्षा प्रयोगशाला और तियानजिन विश्वविद्यालय ने "SafeEar" नामक एक नई वॉयस फॉर्जिंग डिटेक्शन फ्रेमवर्क जारी की है।
यह फ्रेमवर्क वॉयस सामग्री की गोपनीयता की रक्षा करते हुए, प्रभावी फॉर्जिंग डिटेक्शन को प्राप्त करने पर केंद्रित है।
SafeEar का विचार एक न्यूरल ऑडियो कोडेक पर आधारित डिकप्लिंग मॉडल को डिजाइन करके वॉयस के ध्वनिक और अर्थ संबंधी जानकारी को कुशलता से अलग करना है। इसका मतलब है कि SafeEar केवल ध्वनिक जानकारी पर निर्भर करता है फॉर्जिंग डिटेक्शन के लिए, बिना ध्वनि की पूर्ण सामग्री को छुए, जिससे गोपनीयता के लीक को प्रभावी रूप से रोका जा सकता है।
पूरा फ्रेमवर्क चार मुख्य भागों में विभाजित है।
पहले, फ्रंट-एंड डिकप्लिंग मॉडल इनपुट वॉयस से लक्षित ध्वनिक विशेषताओं को निकालने के लिए जिम्मेदार है; दूसरे, बॉटलनेक लेयर और कन्फ्यूजन लेयर ध्वनिक विशेषताओं को घटाने और मिश्रित करने के द्वारा सामग्री चोरी के खिलाफ प्रतिरोध क्षमता को बढ़ाती हैं; तीसरे, फॉर्जिंग डिटेक्टर ट्रांसफार्मर क्लासिफायर का उपयोग करके ऑडियो के फॉर्जिंग होने का निर्धारण करता है; अंत में, वास्तविक वातावरण संवर्धन मॉड्यूल विभिन्न ऑडियो वातावरणों का अनुकरण करके मॉडल की डिटेक्शन क्षमता को और बढ़ाता है।
प्रोजेक्ट लिंक: https://github.com/LetterLiGo/SafeEar?tab=readme-ov-file
कई बेंचमार्क डेटा सेट पर प्रयोगों के बाद, शोध टीम ने पाया कि SafeEar की गलती दर केवल 2.02% है। इसका मतलब है कि यह गहरे फॉर्ज किए गए ऑडियो की पहचान में बहुत प्रभावी है! इसके अलावा, SafeEar पांच भाषाओं के ऑडियो सामग्री की सुरक्षा भी कर सकता है, जिससे इसे मशीन या मानव कान द्वारा समझना कठिन हो जाता है, और शब्दों की गलती दर 93.93% तक पहुंच जाती है। साथ ही, परीक्षणों के माध्यम से, शोधकर्ताओं ने पाया कि हमलावर सुरक्षित वॉयस सामग्री को पुनः प्राप्त नहीं कर सकते, जो इस तकनीक के गोपनीयता संरक्षण के लाभ को दर्शाता है।
इसके अतिरिक्त, SafeEar टीम ने 1500000 बहुभाषी ऑडियो डेटा वाले डेटासेट का निर्माण किया है, जिसमें अंग्रेजी, चीनी, जर्मन, फ्रेंच और इतालवी जैसी कई भाषाएँ शामिल हैं, जो भविष्य के वॉयस फॉर्जिंग डिटेक्शन और शोध के लिए समृद्ध आधार सामग्री प्रदान करती हैं।
SafeEar का लॉन्च न केवल वॉयस फॉर्जिंग डिटेक्शन क्षेत्र में एक नया समाधान लाता है, बल्कि उपयोगकर्ताओं की वॉयस गोपनीयता की रक्षा के लिए भी रास्ता तैयार करता है।
मुख्य बिंदु:
- 🎤 **SafeEar का नवोन्मेषी ढांचा**: गहरे फॉर्ज किए गए ऑडियो का पता लगाने में सक्षम है बिना वॉयस सामग्री को लीक किए, उपयोगकर्ता की गोपनीयता की रक्षा करता है।
- 🔍 **मल्टी-हेड सेल्फ-अटेंशन मैकेनिज्म**: बिना अर्थ संबंधी संकेतों के गहरे फॉर्ज किए गए ऑडियो की पहचान करने की क्षमता को बढ़ाता है, गलती दर केवल 2.02%।
- 🔒 **ऑडियो सामग्री की सुरक्षा**: कई भाषाओं के ऑडियो को बिना解析 किए सुरक्षित रूप से रखने में सक्षम है, शब्दों की गलती दर 93.93% तक।