कृत्रिम बुद्धिमत्ता के क्षेत्र में, 3D दृश्य और स्थानिक समझ तकनीक अवतारित बुद्धिमत्ता, स्वायत्त नेविगेशन और आभासी वास्तविकता जैसे अनुप्रयोगों को चलाने में महत्वपूर्ण भूमिका निभा रही है। मार्च 2025 में, हांग्जो क्वुन हे टेक्नोलॉजी ने GTC2025 वैश्विक सम्मेलन में अपने स्वयं के विकसित 3D दृश्य बड़े भाषा मॉडल SpatialLM को आधिकारिक तौर पर ओपन सोर्स करने की घोषणा की, जिससे उद्योग में व्यापक ध्यान आकर्षित हुआ।

QQ_1744766332372.png

इस मॉडल ने अपनी शक्तिशाली स्थानिक संज्ञान क्षमता और कम लागत वाली डेटा प्रसंस्करण विधि के साथ, रोबोट प्रशिक्षण, भवन डिजाइन और AR/VR जैसे क्षेत्रों में क्रांतिकारी सफलताएँ हासिल की हैं। AIbase नवीनतम जानकारी के आधार पर, SpatialLM के तकनीकी आकर्षण और उद्योग पर इसके प्रभाव का गहन विश्लेषण और व्यवस्थित रूप से प्रस्तुति करता है।

SpatialLM: मोबाइल वीडियो से भौतिक रूप से सही 3D दृश्य तक

SpatialLM एक विशिष्ट बड़ा भाषा मॉडल है जो त्रि-आयामी स्थानिक समझ के लिए डिज़ाइन किया गया है, जो साधारण मोबाइल फोन या कैमरे से लिए गए वीडियो के आधार पर, तेज़ी से भौतिक रूप से सही 3D दृश्य लेआउट उत्पन्न कर सकता है। पारंपरिक विधियों के विपरीत जो महंगे लेज़र रडार या विशेष उपकरणों पर निर्भर करती हैं, SpatialLM बहु-स्रोत बिंदु क्लाउड डेटा (जैसे कि एकल-कैमरा वीडियो अनुक्रम, RGBD छवियाँ या LiDAR सेंसर) को संसाधित करके डेटा संग्रह की बाधा को काफी कम करता है। मॉडल दृश्य में वास्तुशिल्प तत्वों (जैसे दीवारें, दरवाजे और खिड़कियाँ) और वस्तुओं के अर्थ सीमा बॉक्स (जैसे "सोफा - लंबाई 1.8 मीटर - दीवार से 0.5 मीटर दूरी") को सटीक रूप से पहचान सकता है, और संरचित स्क्रिप्ट भाषा में आउटपुट कर सकता है, जिससे मशीन को मानव के समान स्थानिक संज्ञान क्षमता प्राप्त होती है।

इसकी मुख्य तकनीक MASt3R-SLAM पर आधारित है, जो वीडियो को फ़्रेम में विभाजित करके, स्थानिक विवरण निकालती है और उच्च-घनत्व 3D बिंदु क्लाउड उत्पन्न करती है। इसके बाद, बिंदु क्लाउड एन्कोडर डेटा को कॉम्पैक्ट फीचर वेक्टर में बदल देता है, और बड़ा भाषा मॉडल (LLM) आगे दृश्य कोड उत्पन्न करता है, यह सुनिश्चित करता है कि आउटपुट 3D लेआउट भौतिक नियमों का पालन करता है (जैसे "फ़र्नीचर हवा में नहीं लटका सकता" "गलियारे की चौड़ाई ≥0.8 मीटर")। यह बहु-मोडल आर्किटेक्चर गैर-संरचित त्रि-आयामी ज्यामितीय डेटा और संरचित अभिव्यक्ति के बीच की खाई को प्रभावी ढंग से पाटता है, जटिल दृश्य विश्लेषण के लिए उच्च-स्तरीय अर्थ समझ प्रदान करता है।

ओपन सोर्स सशक्तिकरण: अवतारित बुद्धिमत्ता विकास की बाधा को कम करना

क्वुन हे टेक्नोलॉजी द्वारा इस बार ओपन सोर्स किया गया SpatialLM दो मॉडल संस्करण प्रदान करता है: Llama-आधारित SpatialLM-Llama-1B और Qwen-आधारित SpatialLM-Qwen-0.5B, जिनके पैरामीटर क्रमशः 10 करोड़ और 5 करोड़ हैं, जो वर्तमान में सैकड़ों करोड़ पैरामीटर वाले LLM की तुलना में हल्के और कुशल हैं। यह मॉडल Hugging Face, GitHub और Modu समुदाय जैसे प्लेटफार्मों पर वैश्विक डेवलपर्स के लिए ओपन सोर्स किया गया है, जिसमें विस्तृत ट्यूटोरियल और परीक्षण डेटासेट (जैसे SpatialLM-Testset, जिसमें 107 एकल-कैमरा RGB वीडियो से पुनर्निर्मित बिंदु क्लाउड डेटा शामिल है) शामिल हैं। डेवलपर्स सरल Python स्क्रिप्ट का उपयोग करके अनुमान चला सकते हैं और 3D लेआउट परिणाम देखने के लिए विज़ुअलाइज़ेशन टूल (जैसे Rerun) का उपयोग कर सकते हैं।