हाल ही में, स्टैनफोर्ड विश्वविद्यालय और मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के शोधकर्ताओं ने एक AI प्रणाली विकसित की है जिसे WonderWorld कहा जाता है, जो एक ही चित्र से वास्तविक समय में 3D दृश्य उत्पन्न कर सकती है। यह नई तकनीक उपयोगकर्ताओं को आभासी वातावरण को क्रमिक रूप से बनाने और खोजने की अनुमति देती है, जिससे वे उत्पन्न दृश्य की सामग्री और लेआउट को आसानी से नियंत्रित कर सकते हैं।
WonderWorld की सबसे बड़ी चुनौती तेज़ 3D दृश्य उत्पन्न करना है। पहले के तरीकों में एक दृश्य उत्पन्न करने में आमतौर पर कई मिनट से लेकर कई घंटे लगते थे, जबकि WonderWorld केवल 10 सेकंड में Nvidia A6000GPU पर एक नया 3D वातावरण उत्पन्न कर सकती है। यह गति वास्तविक समय में इंटरैक्शन को संभव बनाती है, जो इस क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है।
WonderWorld का कार्यप्रणाली इस प्रकार है: यह इनपुट चित्र से प्रारंभ करके एक प्रारंभिक 3D दृश्य उत्पन्न करती है। फिर, प्रणाली एक चक्र में प्रवेश करती है, दृश्य छवियों और संबंधित FLAGS संकेतों को वैकल्पिक रूप से उत्पन्न करती है। उपयोगकर्ता कैमरा को स्थानांतरित करके नए दृश्य के निर्माण को नियंत्रित कर सकते हैं और टेक्स्ट इनपुट का उपयोग करके वांछित दृश्य प्रकार को निर्दिष्ट कर सकते हैं।
यह उल्लेखनीय है कि FLAGS संकेत तीन स्तरों में होते हैं: अग्रभूमि, पृष्ठभूमि और आकाश। प्रत्येक स्तर में "surfels" नामक तत्वों का एक समूह होता है, जो 3D स्थिति, दिशा, अनुपात, पारदर्शिता और रंग के आधार पर परिभाषित होते हैं। ये surfels गहराई और नॉर्मल मैप का अनुमान लगाकर प्रारंभ होते हैं, और फिर अंतिम दृश्य बनाने के लिए अनुकूलित होते हैं।
दृश्य परिवर्तन के दौरान ज्यामिति विकृति को कम करने के लिए, WonderWorld ने एक मार्गदर्शित गहराई प्रसार प्रक्रिया को अपनाया है। यह विधि पूर्व-प्रशिक्षित गहराई मानचित्र प्रसार मॉडल का उपयोग करती है, जो दृश्य के मौजूदा भागों की ज्यामिति के अनुरूप गहराई का अनुमान समायोजित करती है।
प्रयोगों से पता चला है कि WonderWorld गति और दृश्य गुणवत्ता के मामले में पूर्ववर्ती 3D दृश्य उत्पन्न करने के तरीकों की तुलना में स्पष्ट रूप से बेहतर है। उपयोगकर्ता अनुसंधान में, उत्पन्न दृश्य को अन्य तरीकों द्वारा उत्पन्न दृश्यों की तुलना में अधिक दृश्यात्मक रूप से प्रभावशाली माना गया।
हालांकि WonderWorld गति और दृश्य गुणवत्ता में पिछले तरीकों की तुलना में काफी बेहतर है, फिर भी इसकी कुछ सीमाएँ हैं। जैसे, यह केवल अग्रणी सतहें उत्पन्न कर सकती है, जिससे उपयोगकर्ताओं की आभासी दुनिया में आंदोलन कोण लगभग 45 डिग्री के भीतर सीमित हो जाता है। इसके अलावा, उत्पन्न विश्व वर्तमान में कागज़ के कटआउट की तरह दिखता है, और जब पेड़ जैसी विवरण वस्तुओं को संभालने की बात आती है, तो "छिद्र" या "उड़ते" तत्वों की समस्या उत्पन्न हो सकती है।
इन सीमाओं के बावजूद, शोधकर्ता WonderWorld की संभावनाओं के प्रति आश्वस्त हैं, विशेषकर गेम विकास, आभासी वास्तविकता और गतिशील आभासी विश्व निर्माण के क्षेत्र में। अनुसंधान में उपयोगकर्ताओं ने उत्पन्न दृश्य के दृश्य प्रभाव को अधिक प्रभावशाली बताया, जो इस तकनीक के व्यापक अनुप्रयोग की संभावनाओं को दर्शाता है।
प्रोजेक्ट लिंक: https://kovenyu.com/wonderworld/
मुख्य बिंदु:
🌟 WonderWorld AI केवल एक फोटो का उपयोग करके वास्तविक समय में 3D दृश्य उत्पन्न कर सकती है, जिसकी गति 10 सेकंड तक होती है।
🎮 यह प्रणाली उपयोगकर्ताओं को दृश्य सामग्री और लेआउट को नियंत्रित करने की अनुमति देती है, जो गेम विकास और आभासी वास्तविकता अनुप्रयोगों के लिए उपयुक्त है।
🚧 वर्तमान तकनीक में कुछ सीमाएँ हैं, मुख्य रूप से अग्रणी सतहें उत्पन्न करने और विवरण प्रसंस्करण की कमी के रूप में।