बस 10 सेकंड! WonderWorld AI एकल छवि से वास्तविक समय में 3D दृश्य उत्पन्न करता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 7 मिनट पढ़ें · Oct 9, 2024

806

हाल ही में, स्टैनफोर्ड विश्वविद्यालय और मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के शोधकर्ताओं ने एक AI प्रणाली विकसित की है जिसे WonderWorld कहा जाता है, जो एक ही चित्र से वास्तविक समय में 3D दृश्य उत्पन्न कर सकती है। यह नई तकनीक उपयोगकर्ताओं को आभासी वातावरण को क्रमिक रूप से बनाने और खोजने की अनुमति देती है, जिससे वे उत्पन्न दृश्य की सामग्री और लेआउट को आसानी से नियंत्रित कर सकते हैं।

WonderWorld की सबसे बड़ी चुनौती तेज़ 3D दृश्य उत्पन्न करना है। पहले के तरीकों में एक दृश्य उत्पन्न करने में आमतौर पर कई मिनट से लेकर कई घंटे लगते थे, जबकि WonderWorld केवल 10 सेकंड में Nvidia A6000GPU पर एक नया 3D वातावरण उत्पन्न कर सकती है। यह गति वास्तविक समय में इंटरैक्शन को संभव बनाती है, जो इस क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है।

WonderWorld का कार्यप्रणाली इस प्रकार है: यह इनपुट चित्र से प्रारंभ करके एक प्रारंभिक 3D दृश्य उत्पन्न करती है। फिर, प्रणाली एक चक्र में प्रवेश करती है, दृश्य छवियों और संबंधित FLAGS संकेतों को वैकल्पिक रूप से उत्पन्न करती है। उपयोगकर्ता कैमरा को स्थानांतरित करके नए दृश्य के निर्माण को नियंत्रित कर सकते हैं और टेक्स्ट इनपुट का उपयोग करके वांछित दृश्य प्रकार को निर्दिष्ट कर सकते हैं।

यह उल्लेखनीय है कि FLAGS संकेत तीन स्तरों में होते हैं: अग्रभूमि, पृष्ठभूमि और आकाश। प्रत्येक स्तर में "surfels" नामक तत्वों का एक समूह होता है, जो 3D स्थिति, दिशा, अनुपात, पारदर्शिता और रंग के आधार पर परिभाषित होते हैं। ये surfels गहराई और नॉर्मल मैप का अनुमान लगाकर प्रारंभ होते हैं, और फिर अंतिम दृश्य बनाने के लिए अनुकूलित होते हैं।

दृश्य परिवर्तन के दौरान ज्यामिति विकृति को कम करने के लिए, WonderWorld ने एक मार्गदर्शित गहराई प्रसार प्रक्रिया को अपनाया है। यह विधि पूर्व-प्रशिक्षित गहराई मानचित्र प्रसार मॉडल का उपयोग करती है, जो दृश्य के मौजूदा भागों की ज्यामिति के अनुरूप गहराई का अनुमान समायोजित करती है।

प्रयोगों से पता चला है कि WonderWorld गति और दृश्य गुणवत्ता के मामले में पूर्ववर्ती 3D दृश्य उत्पन्न करने के तरीकों की तुलना में स्पष्ट रूप से बेहतर है। उपयोगकर्ता अनुसंधान में, उत्पन्न दृश्य को अन्य तरीकों द्वारा उत्पन्न दृश्यों की तुलना में अधिक दृश्यात्मक रूप से प्रभावशाली माना गया।

हालांकि WonderWorld गति और दृश्य गुणवत्ता में पिछले तरीकों की तुलना में काफी बेहतर है, फिर भी इसकी कुछ सीमाएँ हैं। जैसे, यह केवल अग्रणी सतहें उत्पन्न कर सकती है, जिससे उपयोगकर्ताओं की आभासी दुनिया में आंदोलन कोण लगभग 45 डिग्री के भीतर सीमित हो जाता है। इसके अलावा, उत्पन्न विश्व वर्तमान में कागज़ के कटआउट की तरह दिखता है, और जब पेड़ जैसी विवरण वस्तुओं को संभालने की बात आती है, तो "छिद्र" या "उड़ते" तत्वों की समस्या उत्पन्न हो सकती है।

इन सीमाओं के बावजूद, शोधकर्ता WonderWorld की संभावनाओं के प्रति आश्वस्त हैं, विशेषकर गेम विकास, आभासी वास्तविकता और गतिशील आभासी विश्व निर्माण के क्षेत्र में। अनुसंधान में उपयोगकर्ताओं ने उत्पन्न दृश्य के दृश्य प्रभाव को अधिक प्रभावशाली बताया, जो इस तकनीक के व्यापक अनुप्रयोग की संभावनाओं को दर्शाता है।

प्रोजेक्ट लिंक: https://kovenyu.com/wonderworld/

मुख्य बिंदु:
🌟 WonderWorld AI केवल एक फोटो का उपयोग करके वास्तविक समय में 3D दृश्य उत्पन्न कर सकती है, जिसकी गति 10 सेकंड तक होती है।
🎮 यह प्रणाली उपयोगकर्ताओं को दृश्य सामग्री और लेआउट को नियंत्रित करने की अनुमति देती है, जो गेम विकास और आभासी वास्तविकता अनुप्रयोगों के लिए उपयुक्त है।
🚧 वर्तमान तकनीक में कुछ सीमाएँ हैं, मुख्य रूप से अग्रणी सतहें उत्पन्न करने और विवरण प्रसंस्करण की कमी के रूप में।

AI सिस्टम WonderWorld 3D दृश्य NvidiaA6000GPU

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

Meta का AI सिस्टम MoCha: शब्दों से बनेंगे जीवंत एनिमेटेड किरदार, होंठों की हरकतें होंगी स्वाभाविक और सहज

Meta और वाटरलू विश्वविद्यालय के शोधकर्ताओं ने मिलकर हाल ही में MoCha नामक एक नया AI सिस्टम जारी किया है, जो साधारण पाठ वर्णन से सिंक्रोनाइज़्ड वॉयस और प्राकृतिक हरकतों वाले पूरे एनिमेटेड किरदार बना सकता है। यह नई तकनीक सामग्री निर्माण की दक्षता और अभिव्यक्ति क्षमता को बढ़ाने में मदद कर सकती है और कई क्षेत्रों में इसकी व्यापक उपयोगिता है। पारंपरिक तरीकों से हटकर, पूरे शरीर का एनिमेशन और सटीक होंठों का मिलान पहले के AI मॉडल जो मुख्य रूप से चेहरे के भावों पर केंद्रित थे, उनसे अलग, MoCha की खासियत यह है कि यह पूरे शरीर की स्वाभाविक गति को प्रदर्शित कर सकता है।

Apr 2, 2025

Meta ने MoCha AI सिस्टम लॉन्च किया: जो सिंक्रोनाइज़्ड वॉयस और मूवमेंट वाले कैरेक्टर एनिमेशन बनाता है

Meta और वाटरलू विश्वविद्यालय की शोध टीम ने मिलकर MoCha नामक एक आर्टिफिशियल इंटेलिजेंस सिस्टम विकसित किया है जो सिंक्रोनाइज़्ड वॉयस और नेचुरल मूवमेंट वाले पूरे कैरेक्टर एनिमेशन बना सकता है। यह इनोवेशन पहले के केवल चेहरे पर केंद्रित एनिमेशन जनरेटिंग मॉडल से अलग है, MoCha कई कैमरा एंगल से पूरे शरीर के मूवमेंट को रेंडर कर सकता है, जिसमें लिप सिंकिंग, हैंड जेस्चर और कई कैरेक्टर के बीच इंटरैक्शन शामिल हैं। MoCha का प्रदर्शन मुख्य रूप से क्लोज़-अप और मिड-शॉट में ऊपरी शरीर की गति और इशारों के सिंक्रनाइज़ेशन पर केंद्रित है, जिससे लिप सिंकिंग की सटीकता में वृद्धि होती है।

Apr 2, 2025

रिपोर्ट: ऐप्पल ने NVIDIA के AI सिस्टम के लिए $1 बिलियन खर्च किए

Mar 26, 2025

सपाट से अलविदा! MIDI: 360 डिग्री 3D दृश्य बनाने के लिए छवि तत्वों को निकालना

Mar 12, 2025

Manus AI सिस्टम प्रॉम्प्ट का रिसाव: आधिकारिक प्रतिक्रिया

सामान्य AI बुद्धिमत्ता उत्पाद Manus हाल ही में लॉन्च हुआ है, और इसने बड़ी संख्या में उपयोगकर्ताओं को आमंत्रण कोड के लिए उत्सुक बना दिया है। उत्पाद के प्रदर्शन पर बहुत ध्यान देने के साथ, लोग Manus के पीछे की तकनीक में भी बहुत रुचि रखते हैं। कई टीमों द्वारा Manus की नकल करने के अलावा, हाल ही में jian नाम के एक उपयोगकर्ता ने Manus सिस्टम को क्रैक किया है, और Manus से '/opt/.manus/' निर्देशिका में फ़ाइलों को आउटपुट करने का अनुरोध करके, कुछ महत्वपूर्ण जानकारी और रनटाइम डेटा प्राप्त करने में सफल रहा है।

Mar 11, 2025

रो永浩 की AR स्टार्टअप कंपनी थिन रेड लाइन ने शुरू की स्प्रिंग भर्ती, AI सिस्टम डेवलपमेंट पर फोकस

हाल ही में, रो永浩 की AR स्टार्टअप कंपनी थिन रेड लाइन (Thin Red Line) ने आधिकारिक तौर पर 2025 के वसंत ऋतु की भर्ती शुरू करने की घोषणा की, जिसने काफी ध्यान आकर्षित किया है। कंपनी ने वर्तमान में जो पूर्णकालिक पद खोले हैं, वे सभी उत्पाद प्रबंधक के लिए हैं, जिनमें वरिष्ठ सॉफ्टवेयर उत्पाद प्रबंधक, AI दिशा सॉफ्टवेयर उत्पाद प्रबंधक, IM दिशा सॉफ्टवेयर उत्पाद प्रबंधक, BI डेटा उत्पाद प्रबंधक और व्यावसायीकरण उत्पाद प्रबंधक शामिल हैं। ये नौकरियां शंघाई और बीजिंग में स्थित हैं, लेकिन कंपनी ने वेतन सीमा का खुलासा नहीं किया है। उद्योग मीडिया 36氪 की रिपोर्ट के अनुसार, रो永浩 का नवीनतम सृजन...

Mar 10, 2025

कुनपुलन वानवे ने Matrix-Zero विश्व मॉडल लॉन्च किया: देश में पहली बार 3D दृश्य और इंटरएक्टिव वीडियो उत्पादन

कुनपुलन वानवे ने आज आधिकारिक रूप से अपना Matrix-Zero विश्व मॉडल लॉन्च किया, जो देश की पहली AI कंपनी है जो एक साथ 3D दृश्य उत्पादन और इंटरएक्टिव वीडियो निर्माण की क्षमता रखती है, जिससे यह स्पatial इंटेलिजेंस के क्षेत्र में महत्वपूर्ण प्रगति का प्रतीक बनता है। Matrix-Zero की मुख्य विशेषताओं में इसकी शक्तिशाली 3D दृश्य निर्माण क्षमता है। यह क्षमता उपयोगकर्ता द्वारा प्रदान की गई छवियों को वैश्विक सुसंगतता के साथ, स्वतंत्र रूप से अन्वेषण योग्य वास्तविक 3D दृश्य में परिवर्तित कर सकती है। यह अपार संभावनाओं वाली तकनीक निम्नलिखित प्रमुख विशेषताओं के साथ आती है: वैश्विक सुसंगतता: Matri

Feb 14, 2025

6.2k

कुनलुन वानवे ने Matrix-Zero विश्व मॉडल जारी किया, 3D दृश्य और इंटरैक्टिव वीडियो जनरेशन का समर्थन करता है

14 फ़रवरी 2025, कुनलुन वानवे समूह ने आधिकारिक रूप से Matrix-Zero विश्व मॉडल लॉन्च किया, जो चीन की स्पatial intelligence क्षेत्र में एक महत्वपूर्ण कदम का प्रतीक है। Matrix-Zero में दो उप-मॉडल शामिल हैं: 3D दृश्य जनरेशन बड़ा मॉडल और इंटरैक्टिव वीडियो जनरेशन बड़ा मॉडल, जिसका उद्देश्य AI तकनीक के माध्यम से डिजिटल कंटेंट निर्माण के तरीके को पुनः आकार देना और फिल्म निर्माण, गेम विकास, एम्बॉडेड इंटेलिजेंस जैसे उद्योगों में नवाचार को बढ़ावा देना है।

Feb 14, 2025

3.7k

Meta ने नया ढांचा शुरू किया, उच्च जोखिम वाले AI सिस्टम के प्रचार को सीमित करने की योजना

Meta ने हाल ही में एक नई जोखिम नीति ढांचा जारी किया है, जिसका उद्देश्य एडवांस AI मॉडल द्वारा उत्पन्न जोखिमों का मूल्यांकन और उन्हें कम करना है, और आवश्यकता पड़ने पर इन सिस्टम के विकास को रोकना या प्रचार को सीमित करना है। इस ढांचे को "एडवांस AI ढांचा" कहा जाता है, जो विस्तार से बताता है कि Meta AI मॉडल को उच्च जोखिम और महत्वपूर्ण जोखिम की दो श्रेणियों में कैसे वर्गीकृत करेगा, और इसके अनुसार प्रभावी कदम उठाएगा ताकि जोखिम को "स्वीकृत स्तर" तक घटाया जा सके। इस ढांचे में, महत्वपूर्ण जोखिम को उन विशेष खतरे परिदृश्यों के कार्यान्वयन के लिए अनोखे रूप से योगदान देने के रूप में परिभाषित किया गया है। जबकि उच्च जोखिम का अर्थ है

Feb 12, 2025

1.2k

DeepMind का नया AI सिस्टम अंतरराष्ट्रीय गणित ओलंपियाड के स्वर्ण पदक विजेताओं से आगे निकल गया, समस्या समाधान क्षमता में उल्लेखनीय वृद्धि

हाल ही में, गूगल DeepMind द्वारा विकसित AI सिस्टम — AlphaGeometry2, ने अंतरराष्ट्रीय गणित ओलंपियाड (IMO) के स्वर्ण पदक विजेताओं के औसत स्तर को सफलतापूर्वक पार कर लिया है, ज्यामितीय समस्याओं के उत्तर देने में उत्कृष्ट प्रदर्शन किया है। AlphaGeometry2, DeepMind द्वारा पिछले वर्ष जारी किए गए AlphaGeometry सिस्टम का एक उन्नत संस्करण है, शोध टीम ने हालिया अध्ययन में बताया कि यह सिस्टम पिछले 25 वर्षों में IMO के 84% ज्यामितीय समस्याओं को हल कर सकता है।

Feb 8, 2025

830

AI समाचार

AI दैनिक

AI समयरेखा

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन