हाल ही में, गूगल की गहन शिक्षण टीम और कई विश्वविद्यालयों के शोधकर्ताओं ने "MegaSaM" नामक एक नए सिस्टम को संयुक्त रूप से जारी किया है, जो सामान्य गतिशील वीडियो से तेजी से और सटीकता से कैमरा पैरामीटर और गहराई मानचित्र का अनुमान लगाने में सक्षम है। इस तकनीक के आने से हमारे दैनिक जीवन में रिकॉर्ड किए गए वीडियो में और अधिक संभावनाएँ खुलेंगी, विशेष रूप से गतिशील दृश्यों की कैप्चरिंग और विश्लेषण के क्षेत्र में।

image.png

परंपरागत गति संरचना पुनर्निर्माण (Structure from Motion, SfM) और मोनोकुलर सिंक्रोनस लोकेशन और मैपिंग (SLAM) तकनीकें आमतौर पर स्थिर दृश्यों के वीडियो इनपुट की आवश्यकता होती हैं, और ये पार्श्विक दृष्टि की मांग करती हैं। गतिशील दृश्यों का सामना करते समय, ये विधियाँ अक्सर अपेक्षित परिणाम नहीं देतीं, क्योंकि स्थिर पृष्ठभूमि की कमी के कारण, एल्गोरिदम में त्रुटियाँ उत्पन्न होती हैं। हाल के वर्षों में कुछ न्यूरल नेटवर्क-आधारित विधियों ने इस समस्या को हल करने का प्रयास किया है, लेकिन ये विधियाँ अक्सर उच्च गणना लागत वाली होती हैं, और गतिशील वीडियो में, विशेष रूप से जब कैमरा का आंदोलन अनियंत्रित होता है या दृश्य क्षेत्र अज्ञात होता है, तो स्थिरता में कमी आती है।

MegaSaM के आगमन ने इस स्थिति को बदल दिया है। शोध टीम ने गहराई दृश्य SLAM ढांचे में सावधानीपूर्वक संशोधन किया है, ताकि यह जटिल गतिशील दृश्यों के अनुकूल हो सके, विशेष रूप से जब कैमरा की पथ अनियंत्रित होती है। एक श्रृंखला के प्रयोगों के बाद, शोधकर्ताओं ने पाया कि MegaSaM कैमरा स्थिति और गहराई अनुमान के मामले में पहले की संबंधित तकनीकों से काफी बेहतर है, और यह समय प्रदर्शन में भी उत्कृष्ट है, यहां तक कि कुछ विधियों के साथ प्रतिस्पर्धा कर सकता है।

इस सिस्टम की शक्तिशाली विशेषताएँ इसे लगभग किसी भी वीडियो को संसाधित करने में सक्षम बनाती हैं, जिसमें वे वीडियो भी शामिल हैं जिनमें शूटिंग के दौरान तेज़ गति या दृश्य गतिशीलता हो सकती है। MegaSaM लगभग 0.7 फ्रेम प्रति सेकंड की गति से स्रोत वीडियो के परिणामों को संसाधित करता है, जो इसकी उत्कृष्ट प्रदर्शन को प्रदर्शित करता है। शोध टीम ने अपने गैलरी में अधिक संसाधित परिणाम भी प्रदर्शित किए हैं, ताकि इसके वास्तविक अनुप्रयोग में प्रभावशीलता को साबित किया जा सके।

यह शोध成果 न केवल कंप्यूटर दृष्टि के क्षेत्र में नई ऊर्जा लाता है, बल्कि दैनिक जीवन में वीडियो प्रसंस्करण के लिए उपयोगकर्ताओं को नई संभावनाएँ प्रदान करता है, और भविष्य में MegaSaM को अधिक दृश्यों में देखने की उम्मीद है।

परियोजना का प्रवेश: https://mega-sam.github.io/#demo

मुख्य बिंदु:

🌟 MegaSaM सिस्टम सामान्य गतिशील वीडियो से तेजी से और सटीकता से कैमरा पैरामीटर और गहराई मानचित्र का अनुमान लगाने में सक्षम है।  

⚙️ यह तकनीक गतिशील दृश्यों में पारंपरिक विधियों की कमियों को दूर करती है, जटिल वातावरण में वास्तविक समय संसाधन करती है।  

📈 प्रयोगात्मक परिणाम दर्शाते हैं कि MegaSaM सटीकता और संचालन दक्षता दोनों में पहले की तकनीकों से बेहतर है।