एक शोध टीम ने एक अभिनव दृश्य स्थान पहचान तकनीक Revisit Anything का प्रदर्शन किया है, जिससे केवल एक छवि इनपुट करने पर यह पहचानने में सक्षम है कि छवि किस स्थान पर है।

गूगल स्ट्रीट व्यू मैप

छवि स्रोत नोट: छवि AI द्वारा उत्पन्न की गई है, छवि लाइसेंस सेवा प्रदाता Midjourney

यह तकनीक नवीनतम SAM (Segment Anything Model) और DINO (Self-Distillation with No Labels) को जोड़ती है, जिसका उद्देश्य छवि खंडों की खोज क्षमता को बढ़ाना है, ताकि स्थान की पुनः पहचान अधिक सटीक हो सके।

इस तकनीक का मुख्य आधार छवि खंडों की खोज क्षमता है, शोध टीम ने Baidu, VPAir, Pitts और 17places जैसे विभिन्न डेटासेट का उपयोग किया है, जो व्यापक परीक्षण आधार प्रदान करते हैं। उपयोगकर्ताओं के लिए सुविधा प्रदान करने के लिए, शोधकर्ता सुझाव देते हैं कि वे 17places जैसे छोटे डेटासेट से शुरू करें, ताकि वे जल्दी से शुरू कर सकें।

डेटासेट तैयार करते समय, उपयोगकर्ताओं को यह सुनिश्चित करना होगा कि डेटासेट के फ़ोल्डर का नाम कॉन्फ़िगरेशन फ़ाइल में नाम के साथ मेल खाता है, ताकि डेटा सुचारू रूप से पढ़ा जा सके।

इसके बाद, उपयोगकर्ता DINO या SAM मॉडल का उपयोग करके विशेषताओं को निकालने का विकल्प चुन सकते हैं और VLAD क्लस्टर केंद्र उत्पन्न कर सकते हैं। ध्यान देने योग्य बात यह है कि क्लस्टर केंद्र उत्पन्न करने का चरण वैकल्पिक है, पहले से मौजूद केंद्र को सीधे कैश से बुलाया जा सकता है। विशेषताओं को निकालने के बाद, उपयोगकर्ताओं को PCA मॉडल निकालना होगा, फिर अंतिम परिणाम प्राप्त करने के लिए मुख्य SegVLAD पाइपलाइन चलानी होगी। सभी परिणामों को सहेजने का विकल्प उपलब्ध है, जिससे बाद में ऑफलाइन खोज गणना करना आसान हो जाता है।

यह शोध न केवल एक नई दृश्य स्थान पहचान योजना प्रदान करता है, बल्कि यह दिखाता है कि आधुनिक गहरे शिक्षण मॉडलों का उपयोग करके छवि विश्लेषण कैसे किया जा सकता है, जिससे इस क्षेत्र में आगे विकास को बढ़ावा मिलता है।

प्रोजेक्ट का प्रवेश द्वार: https://github.com/AnyLoc/Revisit-Anything

मुख्य बिंदु:

🌟 यह शोध SAM और DINO तकनीकों को जोड़कर एक नई दृश्य स्थान पहचान विधि प्रस्तुत करता है।  

📊 उपयोगकर्ता विशेष डेटासेट तैयारी और कॉन्फ़िगरेशन फ़ाइल सेटिंग्स के माध्यम से जल्दी से शुरू कर सकते हैं और प्रयोग चला सकते हैं।  

🔍 शोध विस्तृत चरणों और स्क्रिप्टों को प्रदान करता है, जो उपयोगकर्ताओं को SegVLAD के कुशल परिणाम प्राप्त करने में मदद करता है।