AI से दुनिया को समझने पर ध्यान केंद्रित करने वाले Groundlight अनुसंधान दल ने हाल ही में एक नया AI ढाँचा ओपन सोर्स किया है! यह ढाँचा दृश्य क्षेत्र की एक बड़ी चुनौती – जटिल दृश्य तर्क – को पार करने के लिए बनाया गया है, जिससे AI न केवल "चित्रों को पहचान" सकेगा, बल्कि शर्लक होम्स की तरह, चित्रों से गहरी जानकारी भी प्राप्त कर सकेगा।
हम सभी जानते हैं कि वर्तमान में AI बिल्लियों और कुत्तों की पहचान करने में बहुत अच्छा है, लेकिन उन्हें चित्रों के पीछे के तार्किक संबंधों को समझने और अधिक जटिल तर्क करने के लिए कहना अक्सर "अटका" देता है। Groundlight के शोधकर्ताओं ने बताया कि, वर्तमान दृश्य भाषा मॉडल (VLM) चित्रों को स्वयं समझने में भी कमज़ोर हैं, ऐसे में गहन व्याख्या की आवश्यकता वाले कार्यों को पूरा करना और भी मुश्किल हो जाता है।
हालांकि बड़े भाषा मॉडल (LLM) ने पाठ तर्क में बहुत प्रगति की है, लेकिन दृश्य क्षेत्र में इसी तरह की सफलता सीमित है। मौजूदा VLM तार्किक निष्कर्ष निकालने के लिए दृश्य और पाठ संकेतों को मिलाने की आवश्यकता होने पर अक्सर खराब प्रदर्शन करते हैं, जो उनकी क्षमता में एक प्रमुख कमी को दर्शाता है। केवल चित्रों में वस्तुओं की पहचान करना ही काफी नहीं है, वस्तुओं के बीच के संबंधों और संदर्भ जानकारी को समझना महत्वपूर्ण है।
सुदृढीकरण अधिगम से मदद, GRPO ने बनाया "सबसे शक्तिशाली दिमाग"
VLM की दृश्य तर्क क्षमता को बेहतर बनाने के लिए, Groundlight के अनुसंधान दल ने सुदृढीकरण अधिगम विधि का उपयोग किया और अधिगम दक्षता को बेहतर बनाने के लिए GRPO (ग्रेडिएंट अनुपात नीति अनुकूलन) का नवीनतापूर्ण उपयोग किया।
पिछले शोध, जैसे कि Deepseek का काम और भाषा मॉडल के उन्नत तर्क, ने इन तकनीकों को VLM क्षेत्र में बहुत कम विस्तारित किया है। अपनी विधि को सत्यापित करने के लिए, शोधकर्ताओं ने एक ऐसा कार्य डिज़ाइन किया जिसमें दृश्य और पाठ जानकारी दोनों को संसाधित करने की आवश्यकता थी - एक कोड तोड़ने का कार्य। मॉडल को एन्कोडेड जानकारी को समझने के लिए एक यादृच्छिक रूप से उत्पन्न डिकोडर छवि का उपयोग करने की आवश्यकता थी, और अंत में, केवल 3 बिलियन पैरामीटर वाले मॉडल ने 96% की सटीकता प्राप्त की! ध्यान विश्लेषण से पता चलता है कि कार्य को हल करते समय मॉडल दृश्य इनपुट में सक्रिय रूप से भाग लेता है, और संबंधित डिकोडर क्षेत्रों पर ध्यान केंद्रित करता है।
GRPO का उपयोग करके VLM को प्रशिक्षित करना आसान नहीं था, खासकर टोकेनाइजेशन और पुरस्कार डिज़ाइन के मामले में। चूँकि मॉडल आमतौर पर पाठ को शब्दों (tokens) के रूप में संसाधित करते हैं, न कि व्यक्तिगत वर्णों के रूप में, इसलिए सटीक वर्ण-स्तरीय तर्क की आवश्यकता वाले कार्यों के लिए समस्याएँ हो सकती हैं।
इस समस्या को कम करने के लिए, शोधकर्ताओं ने डिकोडिंग प्रक्रिया को सरल बनाने के लिए संदेशों के अक्षरों के बीच रिक्त स्थान जोड़े। पुरस्कार डिज़ाइन एक और महत्वपूर्ण कड़ी है, क्योंकि सुदृढीकरण अधिगम मॉडल को प्रभावी ढंग से सीखने के लिए अच्छी तरह से संरचित प्रतिक्रिया की आवश्यकता होती है। शोधकर्ताओं ने तीन प्रकार के पुरस्कारों का उपयोग किया: प्रारूप पुरस्कार, जो आउटपुट की स्थिरता सुनिश्चित करता है; डिकोडिंग पुरस्कार, जो बेतरतीब पाठ के सार्थक रूपांतरण को प्रोत्साहित करता है; और शुद्धता पुरस्कार, जो सटीकता में सुधार करता है। इन पुरस्कारों को सावधानीपूर्वक संतुलित करके, शोधकर्ता मॉडल को अप्रत्याशित "शॉर्टकट" सीखने से सफलतापूर्वक बच गए, यह सुनिश्चित करते हुए कि यह वास्तव में कोड तोड़ने की क्षमता में सुधार करता है।
GRPO सीधे ग्रेडिएंट गणना पर निर्भर रहने के बजाय कई आउटपुट की तुलना करके अधिगम प्रक्रिया को अनुकूलित करता है, जो प्रशिक्षण में अधिक स्थिरता लाता है। प्रत्येक क्वेरी के लिए कई प्रतिक्रियाएँ उत्पन्न करके और उनका आपस में मूल्यांकन करके, इस पद्धति ने एक अधिक सहज अधिगम वक्र प्राप्त किया। इस शोध ने तर्क-आधारित कार्यों में VLM की क्षमता पर भी प्रकाश डाला है, लेकिन जटिल दृश्य मॉडल से जुड़ी उच्च गणना लागत को भी स्वीकार किया है।
दक्षता समस्या को हल करने के लिए, उन्होंने चयनात्मक मॉडल उन्नयन जैसी तकनीकों का सुझाव दिया, अर्थात केवल अस्पष्ट परिस्थितियों में ही अधिक महंगे मॉडल का उपयोग करना। इसके अलावा, उन्होंने गणना की लागत में उल्लेखनीय वृद्धि के बिना तर्क क्षमता को बढ़ाने के लिए पूर्व-प्रशिक्षित वस्तु पहचान, विभाजन और गहराई अनुमान मॉडल को एकीकृत करने का भी सुझाव दिया। यह उपकरण-आधारित दृष्टिकोण बड़े एंड-टू-एंड मॉडल को प्रशिक्षित करने के लिए एक स्केलेबल विकल्प प्रदान करता है, जो दक्षता और सटीकता दोनों पर जोर देता है।
Groundlight टीम ने सुदृढीकरण अधिगम तकनीकों, विशेष रूप से GRPO को एकीकृत करके, VLM को बेहतर बनाने में उल्लेखनीय प्रगति की है। उन्होंने एक कोड तोड़ने के कार्य में अपनी विधि का परीक्षण किया, और मॉडल ने प्रभावशाली सटीकता दिखाई।
परियोजना: https://github.com/groundlight/r1_vlm
डेमो: https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder