हाल ही में, गीगा टेक्नोलॉजी ने एक नए ढांचे का प्रस्ताव रखा है जिसे DriveDreamer4D कहा जाता है, जिसका उद्देश्य विश्व मॉडल के पूर्व ज्ञान का उपयोग करके 4D ड्राइविंग दृश्यों के पुनर्निर्माण की गुणवत्ता को बढ़ाना है।
परंपरागत 4D दृश्य पुनर्निर्माण विधियाँ मुख्य रूप से NeRF और 3DGS पर निर्भर करती हैं। NeRF एक सुपर पेंटर की तरह है, जो एक न्यूरल नेटवर्क का उपयोग करके कई तस्वीरों को एक 3D मॉडल में रेंडर कर सकता है। दूसरी ओर, 3DGS विभिन्न वस्तुओं का अनुकरण करने के लिए कई तीन-आयामी गॉसियन फ़ंक्शन का उपयोग करता है।
लेकिन इन दोनों तरीकों में एक गंभीर कमजोरी है: ये प्रशिक्षण डेटा पर बहुत अधिक निर्भर करते हैं! जैसे कि, यदि आपने केवल सीधी रेखा में चलने वाली कार देखी है, और अचानक कोई ड्रिफ्ट करके मोड़ लेता है, तो आप भ्रमित हो जाएंगे। इसलिए, जब जटिल सड़क स्थितियों का सामना करना पड़ता है, जैसे लेन बदलना, तेजी लाना, या धीमा करना, तो ये आसानी से विफल हो जाते हैं।
इस समस्या को हल करने के लिए, गीगा टेक्नोलॉजी ने एक बड़ा हथियार पेश किया है - DriveDreamer4D। इसे सरल शब्दों में कहें तो, यह 4D दृश्य पुनर्निर्माण में एक AI प्लगइन जोड़ता है - विश्व मॉडल।
विश्व मॉडल को आप एक AI मस्तिष्क के रूप में समझ सकते हैं, जो उपलब्ध डेटा के आधार पर भविष्य में होने वाली संभावनाओं की भविष्यवाणी कर सकता है। DriveDreamer4D विश्व मॉडल का उपयोग करके विभिन्न जटिल सड़क स्थितियों के लिए नए दृष्टिकोण वीडियो डेटा उत्पन्न करता है, जिससे 4D दृश्य पुनर्निर्माण मॉडल को "कल्पना" के प्रशिक्षण डेटा से भरपूर किया जाता है, जिससे यह अधिक जानकारीपूर्ण और विफलता से मुक्त हो जाता है।
और भी शानदार बात यह है कि DriveDreamer4D ने एक नया ट्रैक जनरेशन मॉड्यूल (NTGM) भी डिज़ाइन किया है। यह स्वचालित रूप से यातायात नियमों के अनुसार नए ट्रैक्स उत्पन्न कर सकता है, जैसे लेन बदलना, तेजी लाना, धीमा करना आदि, और फिर विश्व मॉडल का उपयोग करके संबंधित दृष्टिकोण का वीडियो उत्पन्न करता है, जिससे 4D दृश्य पुनर्निर्माण मॉडल को एक "प्रशिक्षक" मिलता है, जिससे यह विभिन्न जटिल सड़क स्थितियों में कुशलता से काम कर सके।
प्रायोगिक परिणामों ने भी DriveDreamer4D की क्षमता को साबित किया है। जटिल सड़क स्थितियों को संभालने के दौरान, इसका पुनर्निर्माण प्रभाव पारंपरिक विधियों की तुलना में स्पष्ट रूप से बेहतर है, उत्पन्न चित्रों की सच्चाई की गुणवत्ता अधिक है, और यह वाहन और लेन रेखाओं के स्थान को सटीकता से पुनः स्थापित कर सकता है।
कुल मिलाकर, DriveDreamer4D की उपस्थिति 4D दृश्य पुनर्निर्माण क्षेत्र में एक परमाणु बम की तरह है, जिसने तकनीकी सीमाओं को सीधे तोड़ दिया है। इसके साथ, स्वचालित ड्राइविंग का विकास और परीक्षण और भी अधिक प्रभावी, सुरक्षित और विश्वसनीय होगा।
बेशक, DriveDreamer4D अभी भी अनुसंधान चरण में है, और भविष्य में सुधार के लिए कई स्थान हैं। लेकिन मुझे विश्वास है कि तकनीक के निरंतर विकास के साथ, यह और भी मजबूत होगा, और अंततः स्वचालित ड्राइविंग क्षेत्र का एक अभिन्न हिस्सा बन जाएगा।
पेपर का पता: https://arxiv.org/pdf/2410.13571
प्रोजेक्ट होमपेज: https://drivedreamer4d.github.io/
कोड का पता: https://github.com/GigaAI-research/DriveDreamer4D