वीडियो विश्लेषण के क्षेत्र में, वस्तुओं की स्थिरता एक महत्वपूर्ण संकेत है जिससे मनुष्य यह समझता है कि वस्तुएँ पूरी तरह से छिपे होने पर भी मौजूद हैं। हालांकि, वर्तमान वस्तु विभाजन विधियाँ मुख्य रूप से दृश्य (मोडल) वस्तुओं पर ध्यान केंद्रित करती हैं, और गैर-मोडल (दृश्य + अदृश्य) वस्तुओं के प्रबंधन की कमी है।
इस समस्या के समाधान के लिए, शोधकर्ताओं ने Diffusion-Vas नामक एक दो-चरणीय विधि प्रस्तावित की है, जिसका उद्देश्य वीडियो गैर-मोडल विभाजन और सामग्री पूर्ति के प्रभाव को बढ़ाना है, यह वीडियो में निर्दिष्ट लक्ष्यों को ट्रैक कर सकता है, और फिर छिपे हुए भागों को पूरक करने के लिए विसरण मॉडल का उपयोग करता है।
इस विधि के पहले चरण में वस्तुओं के गैर-मोडल मास्क का उत्पादन शामिल है। शोधकर्ताओं ने दृश्य मास्क अनुक्रम को छद्म गहराई मानचित्र के साथ मिलाकर, वस्तुओं की सीमाओं के छिपने की स्थिति का अनुमान लगाने के लिए किया। छद्म गहराई मानचित्र RGB वीडियो अनुक्रम पर मोनो डेप्थ अनुमान के माध्यम से प्राप्त किया गया है। इस चरण का उद्देश्य यह निर्धारित करना है कि दृश्य में वस्तु किस भाग में छिपी हो सकती है, ताकि वस्तु की पूर्ण परिधि का विस्तार किया जा सके।
पहले चरण में उत्पन्न गैर-मोडल मास्क के आधार पर, दूसरे चरण का कार्य छिपे हुए क्षेत्रों की सामग्री पूर्ति करना है। शोध टीम ने मोडल RGB सामग्री का उपयोग करके, शर्तीय उत्पन्न मॉडल का उपयोग कर छिपे हुए क्षेत्रों को भरने का कार्य किया, और अंततः पूर्ण गैर-मोडल RGB सामग्री उत्पन्न की। पूरे प्रक्रिया में 3D UNet को बैकबोन नेटवर्क के रूप में उपयोग किया गया, जिसने उत्पन्न परिणामों की उच्च विश्वसनीयता सुनिश्चित की।
इसकी प्रभावशीलता को सत्यापित करने के लिए, शोध टीम ने चार डेटा सेट पर नई विधि का बेंचमार्क परीक्षण किया, परिणाम बताते हैं कि कई उन्नत विधियों की तुलना में, इसकी गैर-मोडल विभाजन में छिपी हुई क्षेत्रों की सटीकता में 13% तक सुधार हुआ है। विशेष रूप से जटिल दृश्यों को संभालते समय, शोध विधि ने उत्कृष्ट स्थिरता दिखाई, जो तेज़ कैमरा गति और बार-बार पूरी छिपाई का प्रभावी ढंग से सामना कर सकती है।
यह शोध न केवल वीडियो विश्लेषण की सटीकता को बढ़ाता है, बल्कि जटिल दृश्यों में वस्तुओं की मौजूदगी को समझने के लिए एक नया दृष्टिकोण भी प्रदान करता है। भविष्य में, इस तकनीक को स्वचालित ड्राइविंग, निगरानी वीडियो विश्लेषण आदि कई क्षेत्रों में लागू किया जा सकता है।
प्रोजेक्ट: https://diffusion-vas.github.io/
मुख्य बिंदु:
🌟 शोध ने एक नई विधि का प्रस्ताव रखा है, जो विसरण पूर्वाग्रह के माध्यम से वीडियो में गैर-मोडल विभाजन और सामग्री पूर्ति को प्राप्त करता है।
🖼️ विधि दो चरणों में विभाजित है, पहले गैर-मोडल मास्क उत्पन्न किया जाता है, फिर छिपे हुए क्षेत्रों की सामग्री पूर्ति की जाती है।
📊 कई बेंचमार्क परीक्षणों में, इस विधि ने गैर-मोडल विभाजन की सटीकता को महत्वपूर्ण रूप से बढ़ाया है, विशेष रूप से जटिल दृश्यों में उत्कृष्ट प्रदर्शन किया है।