इलीनॉइस इंस्टीट्यूट ऑफ टेक्नोलॉजी, झेजियांग यूनिवर्सिटी, सेंट्रल फ्लोरिडा यूनिवर्सिटी और यूनिवर्सिटी ऑफ इलिनॉइस अट शिकागो के शोध दल ने हाल ही में नया 3D दृश्य भाषा मॉडल Robin3D जारी किया है।
यह मॉडल एक मिलियन निर्देश पालन डेटा के बड़े पैमाने के डेटासेट पर प्रशिक्षित किया गया है और पांच सामान्य उपयोग किए जाने वाले 3D मल्टीमॉडल लर्निंग बेंचमार्क परीक्षणों में वर्तमान में सर्वश्रेष्ठ प्रदर्शन किया है, जो सामान्य 3D बुद्धिमान एजेंटों के निर्माण में एक महत्वपूर्ण प्रगति का प्रतीक है।
Robin3D की सफलता इसके नवोन्मेषी डेटा इंजन RIG (Robust Instruction Generation) के कारण है। RIG इंजन दो प्रमुख निर्देश डेटा, प्रतिकूल निर्देश पालन डेटा और विविध निर्देश पालन डेटा उत्पन्न करने के लिए डिज़ाइन किया गया है।
प्रतिकूल निर्देश पालन डेटा मॉडल की पहचान करने की क्षमता को बढ़ाने के लिए सकारात्मक और नकारात्मक नमूनों के मिश्रण के माध्यम से उत्पन्न किया जाता है, जबकि विविध निर्देश पालन डेटा विभिन्न निर्देश शैलियों को शामिल करता है ताकि मॉडल की सामान्यीकरण क्षमता को बढ़ाया जा सके।
शोधकर्ताओं ने बताया कि मौजूदा 3D बड़े भाषा मॉडल मुख्य रूप से सकारात्मक 3D दृश्य भाषा जोड़ी और टेम्पलेट-आधारित निर्देशों पर प्रशिक्षित होते हैं, जिससे सामान्यीकरण क्षमता की कमी और ओवरफिटिंग का जोखिम होता है। Robin3D ने प्रतिकूल और विविध निर्देश डेटा को शामिल करके इन सीमाओं को प्रभावी ढंग से पार किया है।
Robin3D मॉडल में रिलेशनल एन्हांस्ड प्रोजेक्टर (RAP) ID विशेषता बाइंडिंग (IFB) संदर्भ और स्थिति क्षमता भी शामिल है। RAP मॉड्यूल समृद्ध दृश्य स्तर के संदर्भ और स्थिति जानकारी के माध्यम से वस्तु-केंद्रित विशेषताओं को बढ़ाता है, जबकि IFB मॉड्यूल प्रत्येक ID को उसके संबंधित विशेषता के साथ बाइंड करके उनके बीच के संबंध को मजबूत करता है।
प्रयोगात्मक परिणाम बताते हैं कि Robin3D बिना किसी विशेष कार्य के लिए ट्यूनिंग की आवश्यकता के बिना, ScanRefer, Multi3DRefer, Scan2Cap, ScanQA और SQA3D सहित पांच बेंचमार्क परीक्षणों में पिछले सर्वोत्तम तरीकों को पार कर गया है।
विशेष रूप से, Multi3DRefer मूल्यांकन में, जिसमें शून्य लक्ष्य मामले शामिल हैं, Robin3D ने F1@0.25 और F1@0.5 मापदंडों पर क्रमशः 7.8% और 7.3% की महत्वपूर्ण वृद्धि हासिल की है।
Robin3D का विमोचन 3D बड़े भाषा मॉडल में स्थानिक बुद्धिमत्ता के क्षेत्र में महत्वपूर्ण प्रगति का प्रतीक है, जो भविष्य में अधिक सामान्य और शक्तिशाली 3D बुद्धिमान एजेंटों के निर्माण के लिए एक मजबूत आधार प्रदान करता है।
पेपर का पता: https://arxiv.org/pdf/2410.00255