क्या आपको "चित्र देखकर बात करने" वाले जादुई GPT-4V के बारे में याद है? यह चित्र की सामग्री को समझ सकता है और चित्र के आधार पर कार्य कर सकता है, यह तो आलसी लोगों के लिए एक वरदान है! लेकिन इसका एक गंभीर कमजोर पहलू है: दृष्टि थोड़ी कमजोर है!

कल्पना कीजिए, आप GPT-4V से एक बटन दबाने के लिए कहते हैं, लेकिन यह "स्क्रीन का अंधा" बनकर इधर-उधर क्लिक करता है, क्या यह बहुत परेशान करने वाला नहीं है?

आज हम आपको एक ऐसे जादुई उपकरण के बारे में बताने जा रहे हैं जो GPT-4V की दृष्टि को बेहतर बना सकता है - OmniParser! यह माइक्रोसॉफ्ट द्वारा जारी किया गया एक नया मॉडल है, जिसका उद्देश्य ग्राफिकल यूजर इंटरफेस (GUI) के स्वचालित इंटरैक्शन की समस्याओं को हल करना है।

OmniParser क्या करता है?

सीधे शब्दों में कहें, OmniParser एक "स्क्रीन अनुवादक" है, जो स्क्रीन के स्क्रिनशॉट को GPT-4V के समझने योग्य "संरचित भाषा" में बदल सकता है। OmniParser ने इंटरैक्टिव आइकन डिटेक्शन मॉडल, आइकन विवरण मॉडल और OCR मॉड्यूल के आउटपुट को मिलाकर बनाया गया है।

image.png

यह संयोजन UI के संरचित, DOM जैसी प्रस्तुति उत्पन्न करता है, और संभावित इंटरैक्टिव तत्वों की सीमाओं के चारों ओर स्क्रीनशॉट को कवर करता है। शोधकर्ताओं ने पहले लोकप्रिय वेबपृष्ठों और आइकन विवरण डेटासेट का उपयोग करके एक इंटरैक्टिव आइकन डिटेक्शन डेटासेट बनाया। इन डेटासेट्स का उपयोग विशेष मॉडल को माइक्रो-ट्यून करने के लिए किया गया: एक स्क्रीन पर इंटरैक्टिव क्षेत्रों का पता लगाने के लिए और एक पहचानने के लिए जो तत्वों के कार्यात्मक अर्थ को निकालता है।

विशेष रूप से, OmniParser:

स्क्रीन पर सभी इंटरैक्टिव आइकन और बटन की पहचान करता है और उन्हें बॉक्स में चिह्नित करता है, प्रत्येक बॉक्स को एक अनोखा ID देता है।

प्रत्येक आइकन के कार्य का वर्णन करता है, जैसे "सेटिंग", "न्यूनतम करना"। स्क्रीन पर टेक्स्ट की पहचान करता है और उसे निकालता है।

इस तरह, GPT-4V स्पष्ट रूप से जान सकता है कि स्क्रीन पर क्या है, हर चीज का क्या कार्य है, और किस बटन को दबाना है, बस उसे ID बताना होता है।

image.png

OmniParser कितना प्रभावशाली है?

शोधकर्ताओं ने OmniParser का परीक्षण करने के लिए विभिन्न परीक्षणों का उपयोग किया और पाया कि यह वास्तव में GPT-4V की "दृष्टि को बेहतर" बना सकता है!

ScreenSpot परीक्षण में, OmniParser ने GPT-4V की सटीकता को काफी बढ़ा दिया, यहां तक कि कुछ विशेष रूप से ग्राफिकल इंटरफेस के लिए प्रशिक्षित मॉडलों को भी पार कर गया। उदाहरण के लिए, ScreenSpot डेटासेट पर, OmniParser की सटीकता 73% बढ़ गई, जो कि मूल HTML解析 पर निर्भर मॉडल से अधिक है। यह ध्यान देने योग्य है कि UI तत्वों के स्थानीय अर्थ का संयोजन भविष्यवाणी की सटीकता में उल्लेखनीय वृद्धि करता है - OmniParser के आउटपुट का उपयोग करते समय, GPT-4V का आइकन सही पहचान 70.5% से बढ़कर 93.8% हो गया।

Mind2Web परीक्षण में, OmniParser ने GPT-4V के वेब ब्राउज़िंग कार्य में प्रदर्शन को और बेहतर बना दिया, सटीकता यहां तक कि HTML जानकारी की सहायता से GPT-4V से भी अधिक हो गई।

AITW परीक्षण में, OmniParser ने GPT-4V के मोबाइल नेविगेशन कार्य में प्रदर्शन को भी काफी बढ़ा दिया।

image.png

OmniParser की क्या कमियाँ हैं?

हालांकि OmniParser बहुत प्रभावशाली है, लेकिन इसमें कुछ छोटी-मोटी समस्याएं हैं, जैसे:

दोहराए गए आइकन या टेक्स्ट के सामने भ्रमित होना, भेद करने के लिए अधिक विस्तृत विवरण की आवश्यकता होती है।

कभी-कभी बॉक्स ठीक से नहीं बनते, जिससे GPT-4V गलत स्थान पर क्लिक कर सकता है।

आइकन की समझ कभी-कभी गलत हो सकती है, अधिक सटीक विवरण के लिए संदर्भ के साथ मिलाना आवश्यक होता है।

हालांकि, शोधकर्ता OmniParser में सुधार करने के लिए प्रयास कर रहे हैं, और हमें विश्वास है कि यह और अधिक शक्तिशाली होगा, और अंततः GPT-4V का सबसे अच्छा साथी बन जाएगा!

मॉडल अनुभव: https://huggingface.co/microsoft/OmniParser

पत्रिका प्रवेश: https://arxiv.org/pdf/2408.00203

आधिकारिक परिचय: https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/

मुख्य बिंदु:

✨OmniParser GPT-4V को स्क्रीन की सामग्री को बेहतर समझने में मदद कर सकता है, जिससे यह कार्य को अधिक सटीकता से निष्पादित कर सकता है।

🔍OmniParser विभिन्न परीक्षणों में उत्कृष्ट प्रदर्शन करता है, जो इसकी प्रभावशीलता को साबित करता है।

🛠️OmniParser में कुछ सुधार की आवश्यकता है, लेकिन भविष्य की संभावनाएं उज्ज्वल हैं।