व्यावसायिक वातावरण में, ग्राफिकल यूजर इंटरफेस (GUI) एजेंट को तीन प्रमुख चुनौतियों का सामना करना पड़ता है। पहले, व्यावसायिक अनुप्रयोगों की जटिलता सामान्य सॉफ़्टवेयर की तुलना में बहुत अधिक होती है, जो जटिल लेआउट की गहरी समझ की मांग करती है; दूसरे, व्यावसायिक उपकरण अक्सर उच्च रिज़ॉल्यूशन के होते हैं, जिससे लक्षित आकार छोटा हो जाता है, जिससे स्थान निर्धारण की सटीकता कम हो जाती है; अंत में, कार्यप्रवाह अक्सर अतिरिक्त उपकरणों और दस्तावेजों पर निर्भर होते हैं, जिससे संचालन की जटिलता बढ़ जाती है। ये चुनौतियाँ GUI एजेंट के इन कठिन परिदृश्यों में प्रदर्शन को बढ़ाने के लिए अधिक उन्नत मानकों और समाधानों के विकास की आवश्यकता को उजागर करती हैं।
वर्तमान GUI स्थान निर्धारण मॉडल और मानक व्यावसायिक वातावरण की आवश्यकताओं को पूरा नहीं करते हैं। उदाहरण के लिए, ScreenSpot जैसे उपकरण मुख्य रूप से निम्न रिज़ॉल्यूशन कार्यों के लिए डिज़ाइन किए गए हैं, जो वास्तविक परिदृश्यों की विविधता को सटीक रूप से अनुकरण करने की कमी रखते हैं। वहीं, OS-Atlas और UGround जैसे मॉडल गणना दक्षता में खराब प्रदर्शन करते हैं, विशेष रूप से जब लक्षित आकार छोटा होता है या इंटरफ़ेस आइकन समृद्ध होते हैं, तब अक्सर विफलता होती है। इसके अलावा, बहुभाषी समर्थन की कमी इन मॉडलों की वैश्विक कार्यप्रवाह में उपयोग को सीमित करती है। ये कमियाँ इस क्षेत्र के विकास को आगे बढ़ाने के लिए एक अधिक व्यापक और वास्तविक मानक की आवश्यकता को और स्पष्ट करती हैं।
इन समस्याओं को हल करने के लिए, सिंगापुर नेशनल यूनिवर्सिटी, ईस्ट चाइना नॉर्मल यूनिवर्सिटी और हांगकांग बप्तिस्ट यूनिवर्सिटी की शोध टीम ने ScreenSpot-Pro पेश किया है, जो उच्च रिज़ॉल्यूशन व्यावसायिक वातावरण के लिए विशेष रूप से डिज़ाइन किया गया एक नया मानक है। इस मानक में 23 उद्योगों से 1,581 कार्य डेटा सेट शामिल हैं, जिसमें विकास, रचनात्मक उपकरण, CAD, वैज्ञानिक प्लेटफ़ॉर्म और ऑफिस सूट शामिल हैं। यह उच्च रिज़ॉल्यूशन की पूर्ण स्क्रीन दृश्यता को अपनाता है और विशेषज्ञ टिप्पणियों के माध्यम से सटीकता और वास्तविकता सुनिश्चित करता है। ScreenSpot-Pro में अंग्रेजी और चीनी सहित बहुभाषी मार्गदर्शन भी है, जिससे मूल्यांकन की सीमा बढ़ती है। ScreenSpot-Pro का एक अनूठा पहलू यह है कि यह वास्तविक कार्यप्रवाह को दस्तावेजित करता है, उच्च गुणवत्ता वाली टिप्पणियों के उत्पादन को सुनिश्चित करता है, जिससे GUI स्थान निर्धारण मॉडल के व्यापक मूल्यांकन और विकास के लिए प्रभावी उपकरण प्रदान करता है।
यह डेटा सेट वास्तविक और चुनौतीपूर्ण परिदृश्यों को कैप्चर करता है, जो उच्च रिज़ॉल्यूशन छवियों पर आधारित है, जिसमें लक्षित क्षेत्र औसतन केवल कुल स्क्रीन का 0.07% है, जो GUI तत्वों की सूक्ष्मता और लघुता को दर्शाता है। डेटा उन पेशेवर उपयोगकर्ताओं द्वारा एकत्र किया गया है जिनके पास संबंधित अनुप्रयोगों में समृद्ध अनुभव है, और टिप्पणी की सटीकता सुनिश्चित करने के लिए विशेष उपकरणों का उपयोग किया गया है। इसके अतिरिक्त, यह डेटा सेट बहुभाषी क्षमताओं का परीक्षण करने के लिए बहुभाषी कार्यक्षमता का समर्थन करता है और इसमें कई कार्यप्रवाह शामिल हैं, जो व्यावसायिक कार्यों के सूक्ष्म अंतर को कैप्चर करते हैं। ये विशेषताएँ इसे GUI एजेंट की सटीकता और लचीलापन को मूल्यांकन और बढ़ाने के लिए विशेष रूप से लाभकारी बनाती हैं।
ScreenSpot-Pro का मौजूदा GUI स्थान निर्धारण मॉडलों के विश्लेषण ने दिखाया है कि यह उच्च रिज़ॉल्यूशन व्यावसायिक वातावरण में कार्य करने की क्षमता में गंभीर कमी है। OS-Atlas-7B की सटीकता केवल 18.9% है। हालाँकि, पुनरावृत्त विधि का उपयोग करने वाला ReGround कई चरणों की विधि के समायोजन के माध्यम से प्रदर्शन में सुधार करता है, जो 40.2% की सटीकता प्राप्त करता है। छोटे घटक जैसे आइकनों की पहचान में उल्लेखनीय कठिनाइयाँ सामने आईं, जबकि द्विभाषी कार्यों ने मॉडल की सीमाओं को और स्पष्ट किया। ये निष्कर्ष जटिल GUI वातावरण में संदर्भ की समझ और अनुकूलन क्षमता को बढ़ाने के लिए तकनीक में सुधार की आवश्यकता को उजागर करते हैं।
ScreenSpot-Pro उच्च रिज़ॉल्यूशन व्यावसायिक वातावरण में GUI एजेंट के मूल्यांकन के लिए एक क्रांतिकारी मानक स्थापित करता है। यह जटिल कार्यप्रवाह में विशिष्ट चुनौतियों को हल करता है, GUI स्थान निर्धारण के नवाचार को मार्गदर्शित करने के लिए विविध और सटीक डेटा सेट प्रदान करता है। यह योगदान अधिक स्मार्ट और प्रभावी एजेंटों की नींव रखेगा, जिससे व्यावसायिक कार्यों का निर्बाध निष्पादन संभव हो सकेगा, और विभिन्न उद्योगों की उत्पादकता और नवाचार को महत्वपूर्ण रूप से बढ़ाएगा।
पेपर: https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf
डेटा: https://huggingface.co/datasets/likaixin/ScreenSpot-Pro
मुख्य बिंदु:
🌟 ** व्यावसायिक अनुप्रयोगों की जटिलता **: GUI एजेंट को उच्च जटिलता और उच्च रिज़ॉल्यूशन व्यावसायिक सॉफ़्टवेयर इंटरफेस को संभालने की आवश्यकता होती है।
🛠️ **ScreenSpot-Pro डेटा सेट **: 1,581 कार्यों को शामिल करता है, जो 23 व्यावसायिक अनुप्रयोगों को कवर करता है, और बहुभाषी मूल्यांकन का समर्थन करता है।
📈 ** मॉडल प्रदर्शन में सुधार **: कई चरणों के समायोजन के माध्यम से, उच्च रिज़ॉल्यूशन वातावरण में GUI स्थान निर्धारण मॉडल की सटीकता बढ़ाई जाती है।