बीजिंग ज़ियुआन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट (BAAI) ने हाल ही में एक अभिनव 3D जनरेटिव मॉडल See3D लॉन्च करने की घोषणा की है, जो बड़े पैमाने पर बिना लेबल वाले इंटरनेट वीडियो से सीखने में सक्षम है। यह तकनीकी प्रगति "वीडियो देखें, 3D प्राप्त करें" के सिद्धांत की दिशा में एक महत्वपूर्ण कदम है। See3D मॉडल पारंपरिक कैमरा पैरामीटर पर निर्भर नहीं करता है, बल्कि दृश्य स्थिति तकनीक का उपयोग करता है, केवल वीडियो में दृश्य संकेतों के माध्यम से कैमरा दिशा को नियंत्रित और ज्यामितीय रूप से संगत बहु-दृश्य छवियां उत्पन्न करता है। यह विधि महंगे 3D या कैमरा लेबलिंग की आवश्यकता से बचती है और इंटरनेट वीडियो से 3D पूर्वाग्रहों को प्रभावी ढंग से सीखने में सक्षम बनाती है।

See3D मॉडल पाठ, एकल दृश्य और बिखरे हुए दृश्यों से 3D उत्पन्न करने का समर्थन करता है, और 3D संपादन और गॉसियन रेंडरिंग कर सकता है। इस मॉडल, कोड और डेमो को ओपन-सोर्स किया गया है, ताकि अधिक तकनीकी विवरणों का संदर्भ लिया जा सके। See3D के प्रदर्शन में 3D इंटरैक्टिव दुनिया को अनलॉक करना, बिखरे हुए चित्रों के आधार पर 3D पुनर्निर्माण, ओपन वर्ल्ड 3D जनरेशन और एकल दृश्य पर आधारित 3D जनरेशन शामिल हैं। ये सुविधाएँ See3D को विभिन्न 3D निर्माण अनुप्रयोगों में व्यापक अनुप्रयोगिता प्रदर्शित करती हैं।

微信截图_20241210151417.png

शोध की प्रेरणा 3D डेटा की सीमाओं से उत्पन्न होती है, पारंपरिक 3D डेटा संग्रह प्रक्रिया समय लेने वाली और महंगी होती है, जबकि वीडियो में बहु-दृश्य संबंध और कैमरा गति की जानकारी होती है, जो 3D संरचना को उजागर करने के लिए एक शक्तिशाली उपकरण बनती है। See3D द्वारा प्रस्तुत समाधान में डेटा सेट निर्माण, मॉडल प्रशिक्षण और 3D जनरेशन ढांचा शामिल हैं। टीम ने वीडियो डेटा को स्वचालित रूप से छानकर 1600万 वीडियो क्लिप और 3.2亿 फ्रेम छवियों के साथ WebVi3D डेटा सेट का निर्माण किया। See3D मॉडल मास्क वीडियो डेटा में समय पर निर्भर शोर जोड़कर शुद्ध 2D दृश्य संकेत उत्पन्न करता है, जो स्केलेबल बहु-दृश्य प्रसार मॉडल प्रशिक्षण का समर्थन करता है, और बिना कैमरा शर्तों के 3D जनरेशन को संभव बनाता है।

See3D की ताकत डेटा विस्तारशीलता, कैमरा नियंत्रण और ज्यामितीय संगति में निहित है। इसका प्रशिक्षण डेटा विशाल इंटरनेट वीडियो से लिया गया है, और निर्मित बहु-दृश्य डेटा सेट ने मात्रा में कई गुना वृद्धि की है। मॉडल जटिल कैमरा पथों के तहत दृश्य उत्पन्न करने का समर्थन करता है, और पूर्व और बाद के फ्रेम दृश्यों की ज्यामितीय संगति बनाए रखता है।

डेटा सेट के आकार को बढ़ाकर, See3D ने 3D जनरेशन तकनीक के विकास के लिए एक नई दिशा प्रदान की है, और आशा है कि यह कार्य 3D शोध समुदाय को बड़े पैमाने पर बिना कैमरा लेबल वाले डेटा पर ध्यान केंद्रित करने के लिए प्रेरित करेगा, 3D डेटा संग्रह की लागत को कम करेगा, और मौजूदा बंद-स्रोत 3D समाधानों के बीच की खाई को कम करेगा।

प्रोजेक्ट का पता: https://vision.baai.ac.cn/see3d