कई वर्षों से, केवल एक छवि के आधार पर उच्च गुणवत्ता, व्यापक दृष्टिकोण वाले 3D दृश्य को प्रभावी ढंग से उत्पन्न करना शोधकर्ताओं के लिए एक चुनौती बनी हुई है। पारंपरिक तरीके अक्सर कई दृष्टिकोण डेटा पर निर्भर करते हैं, या समय लेने वाले दृश्य अनुकूलन की आवश्यकता होती है, और पृष्ठभूमि की गुणवत्ता और अनदेखे क्षेत्रों के पुनर्निर्माण में कमी होती है। मौजूदा तकनीकें एकल दृश्य 3D दृश्य उत्पन्न करने के दौरान अक्सर जानकारी की कमी के कारण अवरोधित क्षेत्रों में गलतियाँ या विकृतियाँ, पृष्ठभूमि धुंधलापन, और अनदेखे क्षेत्रों की ज्यामितीय संरचना का अनुमान लगाने में कठिनाई का सामना करती हैं। जबकि रिग्रेशन-आधारित मॉडल नए दृष्टिकोण संश्लेषण के लिए फीडफॉरवर्ड तरीके से कार्य कर सकते हैं, वे जटिल दृश्यों को संभालने में भारी मेमोरी और गणना दबाव का सामना करते हैं, इसलिए वे ज्यादातर वस्तु-स्तरीय उत्पन्न करने या संकीर्ण दृष्टिकोण दृश्यों तक ही सीमित रहते हैं।

image.png

इन सीमाओं को पार करने के लिए, शोधकर्ताओं ने एक नई तकनीक का नाम रखा है - वंडरलैंड। वंडरलैंड केवल एक छवि के आधार पर, फीडफॉरवर्ड तरीके से उच्च गुणवत्ता, पॉइंट क्लाउड-आधारित 3D दृश्य प्रतिनिधित्व (3DGS) को प्रभावी ढंग से उत्पन्न कर सकता है। यह तकनीक वीडियो फैलाव मॉडल में निहित समृद्ध 3D दृश्य समझने की क्षमता का उपयोग करती है और सीधे वीडियो संभावित स्थान से 3D प्रतिनिधित्व का निर्माण करती है, जिससे मेमोरी की आवश्यकता में काफी कमी आती है। 3DGS वीडियो संभावित स्थान से फीडफॉरवर्ड तरीके से पुनर्प्राप्त करके पुनर्निर्माण प्रक्रिया को काफी तेज करता है। वंडरलैंड का मुख्य नवाचार बिंदुओं में शामिल हैं:

कैमरा-निर्देशित वीडियो फैलाव मॉडल के उत्पन्न पूर्वाग्रह का उपयोग: छवि मॉडल के विपरीत, वीडियो फैलाव मॉडल को बड़े पैमाने पर वीडियो डेटा सेट पर प्रशिक्षित किया गया है, जो दृश्य में विभिन्न दृष्टिकोणों के बीच व्यापक स्थानिक संबंधों को कैप्चर करता है और इसके संभावित स्थान में "3D धारणा" के रूप में एक रूपरेखा को एम्बेड करता है, जिससे नए दृष्टिकोण संश्लेषण में 3D संगति बनाए रखी जा सकती है।

image.png

दोहरी शाखा की स्थिति तंत्र के माध्यम से सटीक कैमरा गति नियंत्रण: यह तंत्र प्रभावी रूप से इच्छित विभिन्न कैमरा पथों को वीडियो फैलाव मॉडल में एकीकृत करता है, जिससे यह एकल छवि को सटीक स्थिति नियंत्रण के साथ 3D दृश्य के बहु-दृश्य सुसंगत कैप्चर में विस्तारित कर सकता है।

वीडियो संभावित स्थान को सीधे 3DGS में परिवर्तित करके प्रभावी 3D पुनर्निर्माण: एक नई प्रकार की संभावित स्थान-आधारित बड़े पैमाने पर पुनर्निर्माण मॉडल (LaLRM) फीडफॉरवर्ड तरीके से वीडियो संभावित स्थान को 3D में बढ़ाता है। छवि से दृश्य पुनर्निर्माण की तुलना में, वीडियो संभावित स्थान 256 गुना समय-स्पष्ट संकुचन प्रदान करता है, जबकि आवश्यक और सुसंगत 3D संरचना के विवरण को बनाए रखता है। यह उच्च संकुचन LaLRM को पुनर्निर्माण ढांचे के भीतर व्यापक 3D दृश्यों को संभालने में सक्षम बनाता है।

image.png

वंडरलैंड वीडियो फैलाव मॉडल की उत्पन्न क्षमता का उपयोग करके उच्च गुणवत्ता, व्यापक दृष्टिकोण और अधिक विविध दृश्यों का रेंडरिंग करता है, और यहां तक कि वस्तु-स्तरीय पुनर्निर्माण से परे दृश्यों को संभालने में सक्षम है। इसकी दोहरी शाखा कैमरा स्थिति नीति वीडियो फैलाव मॉडल को अधिक सटीक स्थिति नियंत्रण के साथ 3D सुसंगत बहु-दृश्य दृश्य कैप्चर उत्पन्न करने में सक्षम बनाती है। शून्य नमूना नए दृष्टिकोण संश्लेषण सेटिंग में, वंडरलैंड एकल छवि को इनपुट के रूप में उपयोग करके फीडफॉरवर्ड 3D दृश्य पुनर्निर्माण करता है, और इसका प्रदर्शन कई बेंचमार्क डेटा सेट (जैसे RealEstate10K, DL3DV और Tanks-and-Temples) पर मौजूदा तरीकों से बेहतर है।

वंडरलैंड की समग्र प्रक्रिया यह है: पहले, एक एकल छवि दी जाती है, एक कैमरा-निर्देशित वीडियो फैलाव मॉडल कैमरा पथ के अनुसार 3D धारणा क्षमता के साथ वीडियो संभावित स्थान उत्पन्न करता है। फिर, संभावित स्थान-आधारित बड़े पैमाने पर पुनर्निर्माण मॉडल (LaLRM) फीडफॉरवर्ड तरीके से इस वीडियो संभावित स्थान का उपयोग करके 3D दृश्य का निर्माण करता है। वीडियो फैलाव मॉडल सटीक स्थिति नियंत्रण प्राप्त करने के लिए दोहरी शाखा कैमरा स्थिति तंत्र का उपयोग करता है। LaLRM संभावित स्थान में चलता है और व्यापक और उच्च-फidelity 3D दृश्यों का प्रभावी पुनर्निर्माण करता है।

वंडरलैंड की तकनीकी विवरण इस प्रकार हैं:

कैमरा-निर्देशित वीडियो संभावित स्थान उत्पन्न करना: सटीक स्थिति नियंत्रण प्राप्त करने के लिए, यह तकनीक पिक्सेल-स्तरीय Plücker एम्बेडिंग का उपयोग करती है, जिसमें समृद्ध स्थिति जानकारी होती है, और दोहरी शाखा स्थिति तंत्र का उपयोग करती है, जो वीडियो फैलाव मॉडल में कैमरा जानकारी को एकीकृत करती है, ताकि स्थिर दृश्य उत्पन्न हो सके।

संभावित स्थान-आधारित बड़े पैमाने पर पुनर्निर्माण मॉडल (LaLRM): यह मॉडल वीडियो संभावित स्थान को 3D गॉसियन स्प्लैश (3DGS) में परिवर्तित करता है, जो दृश्य निर्माण के लिए उपयोग किया जाता है। LaLRM गॉसियन गुणों को पुनर्प्राप्त करने के लिए ट्रांसफार्मर आर्किटेक्चर का उपयोग करता है, पिक्सेल संरेखण के तरीके से बड़े पैमाने पर पुनर्निर्माण करता है, जो छवि-स्तरीय दृश्य अनुकूलन रणनीतियों की तुलना में मेमोरी और समय की लागत को काफी कम करता है।

प्रगतिशील प्रशिक्षण रणनीति: वीडियो संभावित स्थान और गॉसियन स्प्लैश के बीच के विशाल अंतर का सामना करने के लिए, वंडरलैंड प्रगतिशील प्रशिक्षण रणनीति अपनाता है, जो डेटा स्रोत और छवि रिज़ॉल्यूशन के मामले में मॉडल प्रदर्शन को क्रमिक रूप से बढ़ाता है।

शोधकर्ताओं ने व्यापक प्रयोगों के माध्यम से वंडरलैंड की प्रभावशीलता को सत्यापित किया है। कैमरा-निर्देशित वीडियो उत्पन्न करने के मामले में, वंडरलैंड दृश्य गुणवत्ता, कैमरा-निर्देशित सटीकता और दृश्य समानता के मामले में मौजूदा तकनीकों से बेहतर है। 3D दृश्य उत्पन्न करने के मामले में, वंडरलैंड RealEstate10K, DL3DV और Tanks-and-Temples जैसे बेंचमार्क डेटा सेट पर अन्य तरीकों की तुलना में स्पष्ट रूप से बेहतर प्रदर्शन करता है। इसके अलावा, वंडरलैंड ने बाहरी दृश्यों के निर्माण में भी मजबूत क्षमताएँ प्रदर्शित की हैं। विलंबता के मामले में, वंडरलैंड केवल 5 मिनट में दृश्य निर्माण पूरा कर लेता है, जो अन्य तरीकों से कहीं बेहतर है।

वंडरलैंड संभावित स्थान में संचालन करके और दोहरी शाखा कैमरा स्थिति मार्गदर्शन को संयोजित करके, न केवल 3D पुनर्निर्माण की दक्षता को बढ़ाता है, बल्कि उच्च गुणवत्ता वाले दृश्य निर्माण को भी सुनिश्चित करता है, जो एकल छवि से 3D दृश्य उत्पन्न करने में एक नई सफलता लाता है।

पत्र का पता: https://arxiv.org/pdf/2412.12091