वीडियो प्रोसेसिंग के क्षेत्र में, एकल-लेंस वीडियो से त्रि-आयामी गति को प्रभावी ढंग से ट्रैक करना हमेशा एक चुनौती रही है, विशेषकर जब लंबी श्रृंखलाओं के लिए पिक्सेल स्तर की सटीकता की आवश्यकता होती है। पारंपरिक विधियाँ कई चुनौतियों का सामना करती हैं, अक्सर केवल कुछ प्रमुख बिंदुओं को ट्रैक कर पाती हैं, और पूरे दृश्य की विस्तृत समझ प्राप्त नहीं कर पाती हैं।

image.png

इसके अलावा, मौजूदा तकनीकों की गणना की मांग अधिक होती है, जिससे लंबे वीडियो को संसाधित करते समय दक्षता बनाए रखना कठिन हो जाता है। साथ ही, लंबे समय तक ट्रैकिंग कैमरे की गति और वस्तुओं के बाधित होने जैसी समस्याओं से प्रभावित हो सकती है, जिसके परिणामस्वरूप ट्रैकिंग की गलतियाँ या त्रुटियाँ उत्पन्न होती हैं।

वर्तमान में, वीडियो अनुक्रम गति अनुमान के तरीकों के अपने-अपने फायदे और नुकसान हैं। ऑप्टिकल फ्लो तकनीक घनत्व वाले पिक्सेल ट्रैकिंग प्रदान करती है, लेकिन जटिल दृश्यों में, विशेषकर लंबी श्रृंखलाओं को संसाधित करते समय, यह लचीलापन नहीं दिखाती।

दृश्य प्रवाह ऑप्टिकल फ्लो का विस्तार है, जो RGB-D डेटा या बिंदु बादल का उपयोग करके घनत्व वाले त्रि-आयामी गति का अनुमान लगाता है, लेकिन लंबी श्रृंखलाओं में इसे प्रभावी ढंग से लागू करना अभी भी कठिन है। बिंदु ट्रैकिंग विधियाँ भले ही गति की पथरेखा को पकड़ सकती हैं, और अधिक समुचित ट्रैकिंग के लिए स्थान और समय ध्यान को जोड़ती हैं, लेकिन गणना की लागत अधिक होने के कारण घनत्व निगरानी को लागू करना अभी भी कठिन है। इसके अलावा, पुनर्निर्माण आधारित ट्रैकिंग विधियाँ गति का अनुमान लगाने के लिए विकृत क्षेत्र का उपयोग करती हैं, लेकिन वास्तविक समय के अनुप्रयोगों में इसकी व्यावहारिकता कम है।

60f40d8292cd71591253b91a2794ffee.png

हाल ही में, मैसाचुसेट्स विश्वविद्यालय के अम्हर्स्ट और MIT-IBM वॉटसन आर्टिफिशियल इंटेलिजेंस प्रयोगशाला तथा स्नैप इंक. की शोध टीम ने DELTA (Dense Efficient Long-range 3D Tracking for Any Video) का प्रस्ताव दिया है, जो हर पिक्सेल को त्रि-आयामी स्थान में प्रभावी ढंग से ट्रैक करने के लिए विशेष रूप से डिज़ाइन की गई एक विधि है। DELTA कम रिज़ॉल्यूशन ट्रैकिंग से शुरू होती है, समय-स्थान ध्यान तंत्र का उपयोग करती है, और उच्च रिज़ॉल्यूशन की सटीकता प्राप्त करने के लिए ध्यान आधारित अपसैंपलर लागू करती है। इसकी प्रमुख नवाचारों में स्पष्ट गति सीमाओं के लिए अपसैंपलर, प्रभावी स्थान ध्यान संरचना और ट्रैकिंग प्रदर्शन को बढ़ाने के लिए लॉग गहराई प्रतिनिधित्व शामिल हैं।

DELTA ने CVO और Kubric3D डेटासेट पर उन्नत परिणाम प्राप्त किए हैं, औसत जैकार्ड (AJ) और त्रि-आयामी औसत स्थिति भिन्नता (APD3D) जैसे मापदंडों पर 10% से अधिक की वृद्धि की है, और TAP-Vid3D और LSFOdyssey जैसे त्रि-आयामी बिंदु ट्रैकिंग मानक में भी उत्कृष्ट प्रदर्शन किया है। मौजूदा विधियों के विपरीत, DELTA ने पैमाने पर घनत्व त्रि-आयामी ट्रैकिंग को प्राप्त किया है, जो पहले की विधियों की तुलना में 8 गुना अधिक तेज़ गति से काम करती है, जबकि उद्योग में अग्रणी सटीकता बनाए रखती है।

प्रयोगों से पता चला है कि DELTA त्रि-आयामी ट्रैकिंग कार्यों में उत्कृष्ट प्रदर्शन करती है, गति और सटीकता दोनों में पिछले तरीकों को पार करती है। DELTA Kubric डेटासेट पर प्रशिक्षित है, जिसमें 5600 से अधिक वीडियो शामिल हैं, और इसका हानि फ़ंक्शन 2D कोऑर्डिनेट, गहराई और दृश्यता हानि को संयोजित करता है।

बेंचमार्किंग में, DELTA ने CVO और Kubric3D में क्रमशः लंबी दूरी की 2D ट्रैकिंग और घनत्व 3D ट्रैकिंग में उच्चतम स्कोर प्राप्त किया, और कार्य पूरा करने की गति अन्य विधियों की तुलना में कहीं अधिक थी। DELTA के डिज़ाइन विकल्प, जैसे लॉग गहराई प्रतिनिधित्व, स्थान ध्यान और ध्यान आधारित अपसैंपलर, विभिन्न ट्रैकिंग दृश्यों में इसकी सटीकता और दक्षता को महत्वपूर्ण रूप से बढ़ाते हैं।

DELTA एक प्रभावी विधि है, जो वीडियो फ्रेम में हर पिक्सेल को ट्रैक कर सकती है, और घनत्व D और 3D ट्रैकिंग में सटीकता और तेज़ चलने का समय प्राप्त करती है। यह विधि लंबे समय तक बाधित बिंदुओं पर चुनौतियों का सामना कर सकती है, और सबसे अच्छा प्रदर्शन उन छोटे वीडियो में होता है जिनमें फ्रेम की संख्या सैकड़ों से अधिक नहीं होती। DELTA की त्रि-आयामी ट्रैकिंग सटीकता उस एकल-आंख गहराई अनुमान की सटीकता और समय डोमेन स्थिरता पर निर्भर करती है जिसका उपयोग किया जाता है। एकल-आंख गहराई अनुमान के शोध में प्रगति की उम्मीद है कि यह विधि के प्रदर्शन को और बढ़ाएगी।

प्रोजेक्ट लिंक: https://snap-research.github.io/DELTA/

मुख्य बिंदु:

🌟 DELTA एक नई विधि है, जो एकल-लेंस वीडियो में हर पिक्सेल को प्रभावी ढंग से ट्रैक करने के लिए डिज़ाइन की गई है।  

⚡ DELTA ने CVO और Kubric3D डेटासेट पर प्रमुख परिणाम प्राप्त किए हैं, और इसकी गति पारंपरिक विधियों की तुलना में 8 गुना तेज है।  

🔍 इस विधि में लंबे समय तक बाधित बिंदुओं पर चुनौतियाँ हो सकती हैं, लेकिन यह छोटे वीडियो में उत्कृष्ट प्रदर्शन करती है।