माइक्रोसॉफ्ट ने हाल ही में OmniParser V2.0 जारी किया है, जो एक नया解析 उपकरण है जिसका उद्देश्य उपयोगकर्ता इंटरफ़ेस (UI) स्क्रीनशॉट को संरचित प्रारूप में परिवर्तित करना है। OmniParser बड़े भाषा मॉडल (LLM) पर आधारित UI एजेंटों के प्रदर्शन को बढ़ाने में सक्षम है, जिससे उपयोगकर्ताओं को स्क्रीन पर जानकारी को बेहतर तरीके से समझने और संचालन करने में मदद मिलती है।
इस उपकरण का प्रशिक्षण डेटा सेट एक इंटरैक्टिव आइकन डिटेक्शन डेटा सेट को शामिल करता है, जिसे लोकप्रिय वेब पृष्ठों से सावधानीपूर्वक चुना गया है और स्वचालित रूप से टिप्पणीकृत किया गया है, ताकि क्लिक करने योग्य और कार्यात्मक क्षेत्रों को उजागर किया जा सके। इसके अतिरिक्त, एक आइकन विवरण डेटा सेट भी है, जिसका उद्देश्य प्रत्येक UI तत्व को उसके संबंधित कार्य के साथ जोड़ना है।
V2.0 संस्करण में, OmniParser में महत्वपूर्ण सुधार किए गए हैं, अपडेट किया गया डेटा सेट बड़ा और अधिक साफ है, और आइकनों का विवरण और स्थिति 60% तक बढ़ा दी गई है। परीक्षण के अनुसार, इस संस्करण की औसत देरी भी काफी कम हो गई है, A100 उपकरण पर लगभग 0.6 सेकंड / फ़्रेम, जबकि एकल 4090 ग्राफ़िक्स कार्ड पर 0.8 सेकंड / फ़्रेम है। प्रदर्शन के मामले में, OmniParser ने ScreenSpot Pro परीक्षण में 39.6 की औसत सटीकता प्राप्त की है।
उपयोगकर्ता केवल OmniTool का उपयोग करके Windows11 वर्चुअल मशीन को नियंत्रित कर सकते हैं, OmniTool को OmniParser के साथ मिलाकर उपयोग किया जाता है, और उपयोगकर्ता उपयुक्त दृश्य मॉडल का चयन कर सकते हैं। वर्तमान में OmniTool कई बड़े भाषा मॉडलों का समर्थन करता है, जैसे OpenAI के कई संस्करण, DeepSeek (R1), Qwen (2.5VL) और Anthropic Computer Use, जिससे उपयोगकर्ताओं को विभिन्न कार्यों को करने में सुविधा होती है।
OmniParser का उद्देश्य असंरचित स्क्रीनशॉट छवियों को संरचित तत्वों की सूची में परिवर्तित करना है, जिसमें इंटरैक्टिव क्षेत्रों का स्थान और आइकनों की संभावित कार्यात्मकता का विवरण शामिल है। इस उपकरण का उपयोग करने वाले उपयोगकर्ताओं को मूल विश्लेषणात्मक क्षमताओं और आलोचनात्मक सोच की आवश्यकता होती है, क्योंकि हालांकि OmniParser जानकारी निकाल सकता है, अंतिम निर्णय उपयोगकर्ता को स्वयं लेना होगा। यह उपकरण विभिन्न प्रकार के स्क्रीनशॉट के लिए उपयोग किया जा सकता है, जिसमें पीसी और मोबाइल इंटरफेस शामिल हैं, जो इसे अनुकूलनीय बनाता है।
हालांकि, OmniParser की सीमाओं पर ध्यान देना भी महत्वपूर्ण है। यह उपकरण इनपुट में हानिकारक सामग्री का पता नहीं लगाता है, इसलिए उपयोगकर्ताओं को इनपुट प्रदान करते समय सतर्क रहना चाहिए, यह सुनिश्चित करने के लिए कि इसमें हानिकारक जानकारी नहीं है। साथ ही, हालांकि OmniParser केवल स्क्रीनशॉट को पाठ में परिवर्तित करता है, यह अभी भी क्रियाशील ग्राफिकल यूजर इंटरफेस एजेंट बनाने के लिए उपयोग किया जा सकता है। डेवलपर्स को OmniParser का उपयोग करते समय सुरक्षा मानकों और नैतिक दिशानिर्देशों का पालन करना चाहिए।
मॉडल: https://huggingface.co/microsoft/OmniParser-v2.0
परियोजना: https://github.com/microsoft/OmniParser/tree/master
मुख्य बिंदु:
🔍 OmniParser V2.0 एक स्मार्ट解析 उपकरण है, जो UI स्क्रीनशॉट को संरचित जानकारी में परिवर्तित कर सकता है, उपयोगकर्ता संचालन अनुभव को बढ़ाता है।
⚡ नए संस्करण में महत्वपूर्ण सुधार हैं, औसत देरी 0.6 सेकंड / फ़्रेम तक कम हो गई है, सटीकता 39.6% तक पहुँच गई है।
🔐 उपयोग करते समय इनपुट सामग्री की सुरक्षा पर ध्यान दें, डेवलपर्स को सुरक्षा मानकों और नैतिक दिशानिर्देशों का पालन करना चाहिए।