कृत्रिम बुद्धिमत्ता छवि पहचान के क्षेत्र में बहुत आगे बढ़ रही है। बिल्लियों और कुत्तों को वर्गीकृत करना अब पुराना हो गया है। अब "मेल खाने वाला" प्लस संस्करण प्रचलित है, जैसे कि पहली नज़र में यह पता लगाना कि यह किस वर्ष का कौन सा मॉडल की स्पोर्ट्स कार है, या क्या इस पक्षी की भौंहें पड़ोसी के मुकाबले थोड़ी मोटी हैं।
लेकिन समस्या यह है कि तंत्रिका नेटवर्क जितना "स्मार्ट" है, उतना ही यह स्पष्ट करना मुश्किल है कि "मैं यह कैसे कह सकता हूँ?" जब किसी छात्र से समाधान की प्रक्रिया पूछी जाती है, तो वह घबरा जाता है और कुछ नहीं कह पाता। पारंपरिक क्लास एक्टिवेशन मैप (CAM) तंत्रिका नेटवर्क के सिर पर एक चमकदार घेरा लगाने जैसा है, जो आपको बताता है कि "हाँ, यह इस हिस्से को देख रहा है", लेकिन वास्तव में क्या देख रहा है? और क्यों यहाँ देख रहा है? जब "जुड़वाँ" जैसे सूक्ष्म अंतरों का सामना करना पड़ता है, तो यह सीधे तौर पर भ्रमित हो जाता है और समान स्थानों की ओर इशारा करते हुए कहता है, "शायद... यहाँ... शायद..."।
फाइनर-CAM का आगमन: AI को "चेहरे की अंधापन" से मुक्ति दिलाना
महत्वपूर्ण क्षणों में, हमेशा हीरो का आगमन होता है! ओहायो स्टेट यूनिवर्सिटी के शोध वैज्ञानिकों ने इस पर ध्यान दिया और उन्होंने एक अद्भुत उपकरण बनाया - फाइनर-CAM, यह तंत्रिका नेटवर्क के लिए उच्च-परिभाषा नाइट विजन गॉगल्स + माइक्रोस्कोप जैसा है! इसका मुख्य हथकंडा है "तुम क्या देख रहे हो? अलग देखो!" पारंपरिक CAM अकेले काम करता है, लक्ष्य पर ध्यान केंद्रित करता है; जबकि फाइनर-CAM टीम में काम करता है, यह लक्ष्य श्रेणी और उन श्रेणियों को जो "पड़ोसी" जैसी दिखती हैं, एक साथ लाता है, ताकि वे "आमने-सामने लड़ाई" कर सकें।
अपने भविष्यवाणियों के परिणामों के बीच अंतर की गणना करके, फाइनर-CAM उन "विद्रोही" और विशिष्ट विशेषताओं को सटीक रूप से पहचान सकता है, और उन "सामान्य चेहरों" को दृढ़ता से दबा सकता है। यह "अंतर खोजें" खेल जैसा है, पहले कुछ स्थानों पर इशारा करते हुए कहा जाता था कि "मुझे लगता है कि यह यहाँ है", अब फाइनर-CAM के साथ, यह आपको बता सकता है: "गलत! असली अंतर यह बाल है!"
"तीखी नज़र": अधिक विस्तृत, अधिक समझदार, अधिक विश्वसनीय
फाइनर-CAM के आगमन ने इसे एक चमकदार आभा प्रदान की है, और इसके कार्य इतने उल्लेखनीय हैं कि आप "वाह" कहना चाहेंगे:
- विस्तार पर ध्यान देने वालों के लिए वरदान: फाइनर-CAM उन "विस्तार में शैतान" जैसी महत्वपूर्ण विशेषताओं को सटीक रूप से निर्धारित कर सकता है, जैसे कि पक्षियों के पंखों पर अद्वितीय पैटर्न, कार के एक विशेष कोण पर विशिष्ट रेखाएँ, या यहाँ तक कि विमान के पंखों पर छोटे परिवर्तन जो ध्यान से देखने पर भी दिखाई नहीं देते हैं। पहले तंत्रिका नेटवर्क केवल आपको "यह एक पक्षी है" बता सकता था, अब फाइनर-CAM के साथ, यह पक्षी के पैर की उंगलियों की ओर इशारा करते हुए कह सकता है, "नहीं! यह एक लाल पैर वाला रेडशैंक है!"
- "शोर कम करने" का कार्य: पिछली CAM विधियों में, परिणाम छवि अक्सर धुंधली होती थी, और पृष्ठभूमि में अव्यवस्थित चीजें भी चमकती थीं। फाइनर-CAM एक तरह का ब्यूटीफिकेशन फ़िल्टर है, जो अप्रासंगिक पृष्ठभूमि हस्तक्षेप को प्रभावी ढंग से हटा सकता है, जिससे परिणाम अधिक स्पष्ट और समझने में आसान हो जाते हैं।
- अपनी क्षमता से बात करना: भले ही इसका नाम "फाइनर" (अधिक परिष्कृत) है, लेकिन इसकी क्षमता बिल्कुल भी "पतली" नहीं है। विभिन्न कठोर संकेतकों में, जैसे कि सापेक्ष विश्वास में कमी और स्थिति की सटीकता, फाइनर-CAM ने पुरानी CAM विधियों (जैसे Grad-CAM, Layer-CAM, Score-CAM) को पीछे छोड़ दिया है। चाहे आप "अमीर" DINOv2 या "गरीब" CLIP को तंत्रिका नेटवर्क के मुख्य भाग के रूप में उपयोग करें, फाइनर-CAM आपको प्रभावित करेगा।
- "क्रॉसओवर" विशेषज्ञ: और भी बेहतर, फाइनर-CAM बहु-मोडल शून्य-शॉट सीखने को संभाल सकता है। सीधे शब्दों में कहें, यह न केवल चित्रों को पहचान सकता है, बल्कि पाठ विवरणों को भी समझ सकता है, और फिर चित्र में संबंधित वस्तुओं को सटीक रूप से ढूंढ सकता है। यह वैसा ही है जैसे आप एक विदेशी से कहते हैं, "वह लाल कन्वर्टिबल", वह न केवल कार ढूंढ सकता है, बल्कि आपको सटीक रूप से बता सकता है कि कौन सी लाल कन्वर्टिबल है!
इस तरह की मजेदार और व्यावहारिक चीज़ को ज़रूर सभी को आज़माना चाहिए! Imageomics टीम बहुत ही सक्षम है, उन्होंने सीधे फाइनर-CAM का स्रोत कोड और कोलैब डेमो जारी किया है। आपको बस अपनी उंगलियों को हिलाना है, grad-cam
नामक एक छोटा सा टूल स्थापित करना है, और फिर उनके द्वारा प्रदान की गई generate_cam.py
स्क्रिप्ट चलाकर "अंतर खोजें" परिणाम उत्पन्न करना है, और फिर visualize.py
का उपयोग करके प्रभाव देखना है।
फाइनर-CAM का आगमन, तंत्रिका नेटवर्क में एक और उन्नत छवि विश्लेषण प्रणाली स्थापित करने जैसा है, जिससे वे सूक्ष्म अंतरों का सामना करते समय भी स्पष्ट रूप से देख सकते हैं। भविष्य में, जब AI को उन चीजों की पहचान करने के लिए कहा जाएगा जो "एक जैसी दिखती हैं", तो यह आत्मविश्वास से कह सकेगा: "हम्प! मुझे पहले ही आपके दोनों के बीच अंतर पता चल गया है!" यह तकनीक न केवल छवि व्याख्या की सटीकता में सुधार करती है, बल्कि हमें AI के निर्णय लेने की प्रक्रिया की गहरी समझ भी देती है।
परियोजना:https://github.com/Imageomics/Finer-CAM