AI दृष्टि क्षेत्र में, लक्ष्य पहचान हमेशा एक कठिन समस्या रही है। पारंपरिक एल्गोरिदम "नज़दीकी दृष्टि" की तरह हैं, जो केवल "फ्रेम" का उपयोग करके लक्ष्य को मोटे तौर पर घेर सकते हैं, लेकिन अंदर की बारीकियों को स्पष्ट रूप से नहीं देख सकते। यह ठीक वैसे ही है जैसे आप अपने दोस्त को किसी व्यक्ति का वर्णन करते हैं, केवल ऊंचाई और आकार का एक मोटा-मोटा विवरण देते हैं, तो दोस्त उस व्यक्ति को कैसे खोज पाएगा!

इस समस्या को हल करने के लिए, इलिनोइस इंस्टीट्यूट ऑफ टेक्नोलॉजी, सिस्को रिसर्च इंस्टीट्यूट और सेंट्रल फ्लोरिडा यूनिवर्सिटी के कुछ बड़े दिग्गजों ने SegVG नामक एक नई दृष्टि पहचान ढांचे का विकास किया है, जो दावा करता है कि AI को "नज़दीकी दृष्टि" से मुक्त करेगा!

SegVG का मुख्य रहस्य है: "पिक्सेल-स्तरीय" विवरण! पारंपरिक एल्गोरिदम केवल सीमा बॉक्स जानकारी का उपयोग करके AI को प्रशिक्षित करते हैं, जो AI को केवल एक धुंधला छाया दिखाने के बराबर है। जबकि SegVG सीमा बॉक्स जानकारी को विभाजन संकेत में बदलता है, जिससे AI को "HD चश्मा" पहनाया जाता है, जिससे AI हर पिक्सेल को स्पष्ट रूप से देख सकता है!

image.png

विशेष रूप से, SegVG एक "मल्टी-लेयर मल्टी-टास्क एनकोडर-डिकोडर" का उपयोग करता है। यह नाम सुनने में जटिल लगता है, लेकिन आप इसे एक सुपर सटीक "सूक्ष्मदर्शी" के रूप में समझ सकते हैं, जिसमें रिग्रेशन के लिए प्रश्न और विभाजन के लिए कई प्रश्न शामिल हैं। सरल शब्दों में, यह विभिन्न "लेंस" का उपयोग करके सीमा बॉक्स रिग्रेशन और विभाजन कार्यों को अलग-अलग करता है, लक्ष्य का बार-बार अवलोकन करके अधिक बारीक जानकारी निकालता है।

और भी शानदार, SegVG ने "त्रैतीय समन्वय मॉड्यूल" को पेश किया है, जो AI को "अनुवादक" के रूप में काम करता है, जो मॉडल के पूर्व-प्रशिक्षण पैरामीटर और प्रश्न एम्बेडिंग के बीच "भाषा की बाधा" को हल करता है। त्रैतीय ध्यान तंत्र के माध्यम से, यह "अनुवादक" प्रश्न, पाठ और दृश्य विशेषताओं को "एक ही चैनल" में "अनुवाद" कर सकता है, जिससे AI लक्ष्य जानकारी को बेहतर तरीके से समझ सके।

image.png

SegVG का प्रदर्शन वास्तव में कैसा है? दिग्गजों ने पांच सामान्य डेटा सेटों पर प्रयोग किए, और परिणाम पाया कि SegVG का प्रदर्शन कई पारंपरिक एल्गोरिदम को पछाड़ देता है! विशेष रूप से RefCOCO+ और RefCOCOg जैसे प्रसिद्ध "कठिन" डेटा सेटों पर, SegVG ने क्रांतिकारी परिणाम प्राप्त किए!

सटीक पहचान के अलावा, SegVG मॉडल द्वारा पूर्वानुमानित विश्वास स्कोर भी आउटपुट कर सकता है। सरल शब्दों में, AI आपको बताएगा कि वह अपनी पहचान पर कितनी निश्चितता रखता है। यह वास्तविक अनुप्रयोगों में बहुत महत्वपूर्ण है, जैसे कि यदि आप AI का उपयोग चिकित्सा इमेजिंग की पहचान के लिए करना चाहते हैं, तो यदि AI का विश्वास स्तर उच्च नहीं है, तो आपको मानव समीक्षा की आवश्यकता होगी, जिससे गलत निदान से बचा जा सके।

SegVG का ओपन-सोर्स होना पूरे AI दृष्टि क्षेत्र के लिए एक महत्वपूर्ण लाभ है! मुझे विश्वास है कि भविष्य में और अधिक डेवलपर्स और शोधकर्ता SegVG के क्षेत्र में शामिल होंगे, और AI दृष्टि तकनीक के विकास को आगे बढ़ाएंगे।

पत्रिका का पता: https://arxiv.org/pdf/2407.03200

कोड लिंक: https://github.com/WeitaiKang/SegVG/tree/main