एआईजीसी तकनीक के तेजी से विकास के साथ, छवि संपादन उपकरण越来越强大, छवि संपादन करना और भी आसान हो गया है, और इसे पहचानना भी और अधिक कठिन हो गया है। हालांकि मौजूदा छवि संपादन पहचान और स्थान निर्धारण विधियाँ (IFDL) आमतौर पर बहुत प्रभावी होती हैं, लेकिन वे अक्सर दो प्रमुख चुनौतियों का सामना करती हैं: एक है "ब्लैक बॉक्स" स्वभाव, पहचानने के सिद्धांत स्पष्ट नहीं हैं; दूसरा है सामान्यीकरण की सीमित क्षमता, विभिन्न संपादन विधियों (जैसे फ़ोटोशॉप, डीपफेक, एआईजीसी संपादन) का सामना करना कठिन है। 

image.png

इन समस्याओं को हल करने के लिए, पेकिन विश्वविद्यालय की शोध टीम ने व्याख्यायित IFDL कार्य का प्रस्ताव दिया और FakeShield डिज़ाइन किया, जो एक बहु-मोडल ढांचा है, जो छवियों की प्रामाणिकता का मूल्यांकन कर सकता है, संपादित क्षेत्रों के मास्क उत्पन्न कर सकता है, और पिक्सेल-स्तरीय और छवि-स्तरीय संपादन संकेतों के आधार पर निर्णय लेने के लिए आधार प्रदान कर सकता है।

पारंपरिक IFDL विधियाँ केवल छवि की प्रामाणिकता की संभावना और संपादित क्षेत्र प्रदान कर सकती हैं, लेकिन पहचानने के सिद्धांत को स्पष्ट नहीं कर सकतीं। मौजूदा IFDL विधियों की सटीकता सीमित होने के कारण, अभी भी आगे की निर्णय लेने के लिए मानव हस्तक्षेप की आवश्यकता है। लेकिन IFDL विधियों द्वारा प्रदान की गई जानकारी की कमी के कारण, मानव मूल्यांकन का समर्थन करना कठिन होता है, उपयोगकर्ताओं को संदिग्ध छवियों का पुनः विश्लेषण स्वयं करना पड़ता है।

image.png

 इसके अलावा, वास्तविक परिदृश्यों में, संपादन के प्रकार विविध होते हैं, जिसमें फ़ोटोशॉप (कॉपी मूव, स्टिचिंग और हटाना), एआईजीसी संपादन, डीपफेक आदि शामिल हैं। मौजूदा IFDL विधियाँ आमतौर पर इनमें से केवल एक तकनीक को संभाल सकती हैं, जो व्यापक सामान्यीकरण की कमी को दर्शाती है। यह उपयोगकर्ताओं को विभिन्न संपादन प्रकारों की पूर्व पहचान करने और तदनुसार विशेष पहचान विधियों को लागू करने के लिए मजबूर करता है, जिससे इन मॉडलों की उपयोगिता में काफी कमी आती है।

मौजूदा IFDL विधियों की इन दो समस्याओं को हल करने के लिए, FakeShield ढांचा बड़े भाषा मॉडल (LLM) की शक्तिशाली क्षमताओं का लाभ उठाता है, विशेष रूप से बहु-मोडल बड़े भाषा मॉडल (M-LLM), जो दृश्य और पाठ विशेषताओं को संरेखित कर सकता है, जिससे LLM को बेहतर दृश्य समझने की क्षमता मिलती है। चूंकि LLM को विशाल और विविध विश्व ज्ञान कॉर्पस पर पूर्व-प्रशिक्षित किया गया है, इसलिए वे मशीन अनुवाद, कोड पूर्णता और दृश्य समझने जैसे कई अनुप्रयोग क्षेत्रों में बहुत संभावनाएं रखते हैं।

image.png

FakeShield ढांचे का核心 बहु-मोडल संपादन वर्णन डेटा सेट (MMTD-Set) है। इस डेटा सेट ने GPT-4o का उपयोग करके मौजूदा IFDL डेटा सेट को बढ़ाया है, जिसमें संपादित छवियाँ, संशोधित क्षेत्र मास्क और संपादन क्षेत्र का विस्तृत विवरण शामिल है। MMTD-Set का लाभ उठाकर, शोध टीम ने M-LLM और दृश्य विभाजन मॉडल को ठीक किया, ताकि वे संपादन का पता लगाने और सटीक संपादित क्षेत्र मास्क उत्पन्न करने सहित पूर्ण विश्लेषण परिणाम प्रदान कर सकें। 

FakeShield में क्षेत्र टैग द्वारा मार्गदर्शित व्याख्यायित जालसाजी पहचान मॉड्यूल (DTE-FDM) और बहु-मोडल जालसाजी स्थान निर्धारण मॉड्यूल (MFLM) भी शामिल हैं, जो विभिन्न प्रकार की संपादन पहचान व्याख्या करने और विस्तृत पाठ वर्णन द्वारा मार्गदर्शित जालसाजी स्थान निर्धारण को लागू करने के लिए उपयोग किए जाते हैं।

कई प्रयोगों ने दिखाया है कि FakeShield विभिन्न संपादन तकनीकों का प्रभावी ढंग से पता लगाने और स्थान निर्धारित करने में सक्षम है, और पिछले IFDL विधियों की तुलना में, यह एक व्याख्यायित, बेहतर समाधान प्रदान करता है।

यह शोध成果 व्याख्यायित IFDL में M-LLM के अनुप्रयोग का पहला प्रयास है, जो इस क्षेत्र में महत्वपूर्ण प्रगति का प्रतीक है। FakeShield न केवल संपादन पहचान में कुशल है, बल्कि यह व्यापक व्याख्या और सटीक स्थान निर्धारण भी प्रदान करता है, और विभिन्न संपादित प्रकारों के प्रति मजबूत सामान्यीकरण क्षमता प्रदर्शित करता है। ये विशेषताएँ इसे विभिन्न वास्तविक अनुप्रयोगों के लिए एक बहुपरकारी उपयोगिता उपकरण बनाती हैं।

 भविष्य में, यह कार्य कई क्षेत्रों में महत्वपूर्ण भूमिका निभाएगा, जैसे कि डिजिटल सामग्री हेरफेर से संबंधित कानून और विनियमों में सुधार में मदद करना, जनरेटिव आर्टिफिशियल इंटेलिजेंस के विकास के लिए मार्गदर्शन प्रदान करना, और एक स्पष्ट और विश्वसनीय ऑनलाइन वातावरण को बढ़ावा देना। इसके अलावा, FakeShield कानूनी मुकदमों में सबूत संग्रह में सहायता कर सकता है, और सार्वजनिक संवाद में गलत जानकारी को सुधारने में मदद कर सकता है, अंततः डिजिटल मीडिया की अखंडता और विश्वसनीयता को बढ़ाने में योगदान कर सकता है।

परियोजना का मुख्य पृष्ठ: https://zhipeixu.github.io/projects/FakeShield/

गिटहब पते: https://github.com/zhipeixu/FakeShield

पत्रिका का पता: https://arxiv.org/pdf/2410.02761