आज के तेज़ी से विकसित हो रहे कृत्रिम बुद्धिमत्ता के युग में, वॉयस सिंथेसिस और ट्रांसफर तकनीकें निरंतर नई ऊंचाइयों को छू रही हैं, जो हमें बेहद वास्तविक और प्राकृतिक ऑडियो अनुभव प्रदान कर रही हैं। हालाँकि, इन तकनीकों में प्रगति ने संभावित सुरक्षा खतरों को भी जन्म दिया है, विशेष रूप से "वॉयस क्लोनिंग" तकनीक का दुरुपयोग किया जा सकता है, जो व्यक्तिगत गोपनीयता और सामाजिक स्थिरता को खतरे में डाल सकता है।
इस चुनौती का सामना करने के लिए, झेजियांग विश्वविद्यालय के स्मार्ट सिस्टम सुरक्षा प्रयोगशाला और तिनहुआ विश्वविद्यालय ने एक क्रांतिकारी वॉयस फर्जीकरण पहचान ढांचा - SafeEar प्रस्तुत किया है। यह ढांचा न केवल प्रभावी रूप से फर्जी ऑडियो का पता लगा सकता है, बल्कि पहचान प्रक्रिया के दौरान उपयोगकर्ता की वॉयस गोपनीयता की भी रक्षा करता है, जो सुरक्षा और गोपनीयता का दोहरा आश्वासन प्रदान करता है।
SafeEar की मुख्य तकनीक उसके द्वारा अपनाए गए न्यूरल ऑडियो कोडेक पर आधारित डिकपलिंग मॉडल में निहित है। यह अभिनव डिज़ाइन वॉयस के ध्वनिक विशेषताओं और अर्थ जानकारी को अलग करने में सक्षम है, केवल ध्वनिक विशेषताओं पर निर्भर करते हुए फर्जी पहचान करता है। यह न केवल पहचान सटीकता को बढ़ाता है, बल्कि सबसे महत्वपूर्ण बात यह है कि पहचान प्रक्रिया के दौरान वॉयस सामग्री को लीक नहीं करता है, जो उपयोगकर्ता की गोपनीयता की प्रभावी सुरक्षा करता है।
इस ढांचे की संरचना में फ्रंट-एंड डिकपलिंग मॉडल, बॉटलनेक लेयर, कन्फ्यूजन लेयर, फर्जी पहचानकर्ता और वास्तविक वातावरण को बढ़ाने के कई मॉड्यूल शामिल हैं। इन मॉड्यूल के सहयोग से, SafeEar विभिन्न फर्जीकरण तकनीकों का सामना करते समय उत्कृष्ट पहचान क्षमता प्रदर्शित करता है, जिसमें फॉल्स पॉजिटिव दर केवल 2.02% है, जो वर्तमान में सबसे उन्नत तकनीकों के स्तर के करीब है। और भी उत्साहजनक बात यह है कि प्रयोगों से साबित हुआ है कि हमलावर ध्वनिक जानकारी से मूल वॉयस सामग्री को पुनः प्राप्त नहीं कर सकते, जो SafeEar की गोपनीयता संरक्षण में उत्कृष्टता को साबित करता है।
SafeEar का फ्रंट-एंड मॉड्यूल अभिनव डिकपलिंग मॉडल को अपनाता है, जो वॉयस विशेषताओं को अलग करने और पुनर्निर्माण करने की प्रक्रिया में ध्वनिक और अर्थ जानकारी को प्रभावी ढंग से अलग करता है। इसके बाद, बॉटलनेक लेयर और कन्फ्यूजन लेयर डिमेंशन घटाने और यादृच्छिक कन्फ्यूजन के माध्यम से वॉयस जानकारी की और सुरक्षा करते हैं, यहां तक कि सबसे उन्नत वॉयस पहचान मॉडल के सामने भी, वास्तविक जानकारी को निकाले जाने से प्रभावी रूप से रोकते हैं।
फर्जी पहचान के मामले में, SafeEar ने ध्वनिक इनपुट पर आधारित ट्रांसफार्मर क्लासिफायर का उपयोग किया है, जिससे पहचान की सटीकता और दक्षता में सुधार होता है। इसके अलावा, विभिन्न ऑडियो कोडेक्स के माध्यम से विभिन्न वातावरण में ऑडियो स्थितियों का अनुकरण करके, SafeEar ने मॉडल की पर्यावरण अनुकूलता को भी बढ़ाया है।
कई कठोर प्रयोगात्मक परीक्षणों के बाद, SafeEar न केवल कई पारंपरिक पहचान विधियों को पार कर गया है, बल्कि ऑडियो फर्जीकरण पहचान क्षेत्र में एक नया मानक स्थापित किया है। सबसे महत्वपूर्ण बात यह है कि SafeEar वास्तविक अनुप्रयोगों में उपयोगकर्ता की वॉयस गोपनीयता को वास्तविक समय में सुरक्षित रख सकता है, जो स्मार्ट वॉयस सेवाओं के सुरक्षित विकास के लिए एक मजबूत समर्थन प्रदान करता है।
इस तकनीक के माध्यम से, झेजियांग विश्वविद्यालय और तिनहुआ विश्वविद्यालय ने न केवल वॉयस फर्जीकरण पहचान के नए क्षेत्र की शुरुआत की है, बल्कि विभिन्न भाषाओं और वॉयस कोडर के साथ एक समृद्ध ऑडियो डेटा सेट का निर्माण किया है। यह भविष्य के अनुसंधान और अनुप्रयोगों के लिए एक ठोस आधार प्रदान करता है, जिससे उपयोगकर्ता सुविधाजनक वॉयस सेवाओं का आनंद लेते हुए बेहतर गोपनीयता संरक्षण भी प्राप्त कर सकते हैं।
SafeEar का आगमन निश्चित रूप से हमें AI युग की गोपनीयता चुनौतियों का सामना करने के लिए एक मजबूत उपकरण प्रदान करता है, जिससे हम तकनीकी सुविधा का आनंद लेते हुए अपनी गोपनीयता सुरक्षा को भी बेहतर तरीके से सुनिश्चित कर सकें।
पेपर का पता: https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf