एआई द्वारा उत्पन्न वीडियो越来越 वास्तविक होते जा रहे हैं, जिससे मानव (और मौजूदा जांच प्रणाली) के लिए असली वीडियो और नकली वीडियो के बीच अंतर करना कठिन हो गया है। इस समस्या को हल करने के लिए, कोलंबिया विश्वविद्यालय के इंजीनियरिंग स्कूल के शोधकर्ताओं ने, कंप्यूटर विज्ञान के प्रोफेसर यांग जून्फेंग के नेतृत्व में, एआई द्वारा उत्पन्न वीडियो का पता लगाने के लिए एक नए उपकरण का नाम DIVID विकसित किया है, जिसका पूरा नाम DIffusion-generated VIdeo Detector है। DIVID इस टीम द्वारा इस वर्ष की शुरुआत में जारी किए गए Raidar का विस्तार है, जो एआई द्वारा उत्पन्न पाठ का पता लगाने के लिए बिना बड़े भाषा मॉडल के आंतरिक कार्यों तक पहुंच के पाठ का विश्लेषण करके काम करता है।
DIVID ने पूर्व में उत्पन्न वीडियो का पता लगाने के लिए उपयोग की जाने वाली विधियों में सुधार किया है और पुराने एआई मॉडल (जैसे जनरेटिव एडवर्सेरियल नेटवर्क GAN) द्वारा उत्पन्न वीडियो की प्रभावी पहचान की है। GAN एक एआई प्रणाली है जिसमें दो न्यूरल नेटवर्क होते हैं: एक नकली डेटा बनाने के लिए और दूसरा असली और नकली के बीच अंतर करने के लिए। निरंतर फीडबैक के माध्यम से, दोनों नेटवर्क लगातार सुधार करते हैं, जिससे बहुत वास्तविक दिखने वाले संश्लेषित वीडियो उत्पन्न होते हैं। वर्तमान एआई जांच उपकरण कुछ स्पष्ट संकेतों की तलाश करते हैं, जैसे असामान्य पिक्सेल व्यवस्था, अप्राकृतिक गति या फ्रेमों के बीच असंगति, जो असली वीडियो में आमतौर पर नहीं होती।
नई पीढ़ी के जनरेटिव एआई वीडियो उपकरण, जैसे OpenAI का Sora, Runway Gen-2 और Pika, वीडियो बनाने के लिए फैलाव मॉडल का उपयोग करते हैं। फैलाव मॉडल एक एआई तकनीक है जो धीरे-धीरे यादृच्छिक शोर को स्पष्ट और वास्तविक छवियों में परिवर्तित करके छवियों और वीडियो को बनाता है। वीडियो के लिए, यह प्रत्येक फ्रेम को अलग से अनुकूलित करता है, जबकि सुचारू संक्रमण सुनिश्चित करता है, जिससे उच्च गुणवत्ता और वास्तविकता वाले परिणाम उत्पन्न होते हैं। इस तरह के जटिल एआई द्वारा उत्पन्न वीडियो के विकास ने इसकी वास्तविकता की जांच के लिए एक महत्वपूर्ण चुनौती प्रस्तुत की है।
बर्नाडेट यंग की टीम ने फैलाव से उत्पन्न छवियों का पता लगाने के लिए DIRE (DIffusion Reconstruction Error) नामक तकनीक का उपयोग किया है। DIRE एक विधि है जो इनपुट छवि और पूर्व-प्रशिक्षित फैलाव मॉडल द्वारा पुनर्निर्मित संबंधित आउटपुट छवि के बीच के अंतर को मापता है।
जुन्फेंग यांग सॉफ्टवेयर सिस्टम प्रयोगशाला के सह-निदेशक हैं और वे एआई द्वारा उत्पन्न पाठ और वीडियो का पता लगाने के तरीकों की खोज कर रहे हैं। इस वर्ष की शुरुआत में, Raidar के प्रकाशन के साथ, जुन्फेंग यांग और उनके सहयोगियों ने पाठ का विश्लेषण करके, बिना बड़े भाषा मॉडल जैसे chatGPT-4, Gemini या Llama के आंतरिक कार्यों तक पहुंच के, एआई द्वारा उत्पन्न पाठ का पता लगाने की विधि विकसित की। Raidar ने दिए गए पाठ को पुनः व्यक्त या संशोधित करने के लिए भाषा मॉडल का उपयोग किया और फिर दिए गए पाठ पर प्रणाली द्वारा किए गए संपादनों की संख्या को मापा। संपादन की अधिक संख्या का मतलब है कि पाठ संभवतः मानव द्वारा लिखा गया है, जबकि संपादन की कम संख्या का मतलब है कि पाठ संभवतः मशीन द्वारा उत्पन्न है।
जुन्फेंग यांग ने कहा: "Raidar का यह प्रेरणा - अर्थात एक एआई अक्सर मानता है कि दूसरे एआई का आउटपुट उच्च गुणवत्ता का है, इसलिए वह कम संपादन करता है - यह अंतर्दृष्टि बहुत शक्तिशाली है और केवल पाठ तक सीमित नहीं है।" उन्होंने कहा: "चूंकि एआई द्वारा उत्पन्न वीडियो越来越 वास्तविक होते जा रहे हैं, हम Raidar की अंतर्दृष्टि का उपयोग करके एक ऐसा उपकरण बनाने की आशा करते हैं जो एआई द्वारा उत्पन्न वीडियो का सही तरीके से पता लगा सके।"
शोधकर्ताओं ने DIVID विकसित करने के लिए इसी अवधारणा का उपयोग किया है। यह नई जनरेटिव वीडियो जांच विधि फैलाव मॉडल द्वारा उत्पन्न वीडियो की पहचान कर सकती है। इस शोध पत्र को 2024 में सिएटल में कंप्यूटर दृष्टि और पैटर्न पहचान सम्मेलन (CVPR) में प्रस्तुत किया गया, साथ ही ओपन-सोर्स कोड और डेटा सेट जारी किया गया।
पेपर का पता: https://arxiv.org/abs/2406.09601
मुख्य बिंदु:
- एआई द्वारा उत्पन्न वीडियो越来越 वास्तविक होते जा रहे हैं, कोलंबिया विश्वविद्यालय के इंजीनियरिंग स्कूल के शोधकर्ताओं ने एक नया उपकरण DIVID विकसित किया है, जो 93.7% सटीकता से एआई द्वारा उत्पन्न वीडियो का पता लगा सकता है।
- DIVID एक नए जनरेटिव एआई वीडियो का पता लगाने के लिए पूर्व की विधियों में सुधार है, जो फैलाव मॉडल द्वारा उत्पन्न वीडियो की पहचान कर सकता है, जो धीरे-धीरे यादृच्छिक शोर को उच्च गुणवत्ता वाले, वास्तविक वीडियो छवियों में बदलता है।
- शोधकर्ता Raidar के एआई द्वारा उत्पन्न पाठ की अंतर्दृष्टि को वीडियो तक विस्तारित करते हैं, भाषा मॉडल का उपयोग करके पाठ या वीडियो को पुनः व्यक्त या संशोधित करते हैं, और फिर प्रणाली द्वारा पाठ या वीडियो पर किए गए संपादनों की संख्या को मापते हैं, ताकि इसकी वास्तविकता का निर्धारण किया जा सके।