मोबाइल, टैबलेट, कंप्यूटर, टीवी, स्क्रीन की संख्या बढ़ती जा रही है और संचालन जटिल होता जा रहा है, क्या यह आपको भ्रमित कर रहा है? एप्पल ने हाल ही में एक बड़ा धमाका किया है - Ferret-UI2, एक अत्यधिक शक्तिशाली UI समझने वाला मॉडल, जो दावा करता है कि वह क्षेत्र को एकजुट करेगा!

यह कोई बड़ाई नहीं है, Ferret-UI2 का लक्ष्य एक वास्तविक हेक्सागोनल योद्धा बनना है, जो विभिन्न प्लेटफार्मों पर उपयोगकर्ता इंटरफ़ेस को समझ सकता है, चाहे वह iPhone, Android, iPad, वेब या AppleTV हो, यह सभी को आसानी से संभाल सकता है।

image.png

Ferret-UI2 की एक बड़ी विशेषता इसका मल्टी-प्लेटफ़ॉर्म समर्थन है। मोबाइल प्लेटफॉर्म तक सीमित Ferret-UI के विपरीत, Ferret-UI2 टैबलेट, वेब और स्मार्ट टीवी जैसे विभिन्न उपकरणों से UI स्क्रीन को समझ सकता है। यह मल्टी-प्लेटफ़ॉर्म समर्थन इसे आज के विविध उपकरण पारिस्थितिकी तंत्र के अनुकूल बनाने में सक्षम बनाता है, जिससे उपयोगकर्ताओं को व्यापक अनुप्रयोग परिदृश्य प्रदान करता है।

image.png

UI समझने की क्षमता बढ़ाने के लिए, Ferret-UI2 ने डायनामिक हाई-रेज़ोल्यूशन इमेज कोडिंग तकनीक को अपनाया है और एक “एडाप्टिव ग्रिड” नामक संवर्धन विधि का उपयोग किया है। इस विधि के माध्यम से, Ferret-UI2 UI स्क्रीनशॉट के मूल रिज़ॉल्यूशन पर अपनी समझ बनाए रख सकता है, जिससे यह दृश्य तत्वों और उनके बीच के संबंधों की पहचान अधिक सटीकता से कर सकता है।

image.png

इसके अलावा, Ferret-UI2 उच्च गुणवत्ता वाले प्रशिक्षण डेटा का उपयोग करके बुनियादी और उन्नत कार्यों को सीखता है। बुनियादी कार्यों के लिए, Ferret-UI2 सरल संदर्भ और स्थान डेटा को संवाद के रूप में परिवर्तित करता है, जिससे मॉडल विभिन्न UI स्क्रीन पर बुनियादी समझ स्थापित कर सके। उपयोगकर्ता अनुभव पर अधिक ध्यान केंद्रित करने वाले उन्नत कार्यों के लिए, Ferret-UI2 ने **GPT-4o आधारित “टैग सेट विज़ुअल संकेत”** तकनीक का उपयोग करके प्रशिक्षण डेटा उत्पन्न किया है और पिछले तरीकों में सरल क्लिक निर्देशों के स्थान पर चरण-दर-चरण उपयोगकर्ता केंद्रित इंटरैक्शन को अपनाया है।

Ferret-UI2 के प्रदर्शन का मूल्यांकन करने के लिए, शोधकर्ताओं ने पांच प्लेटफार्मों को कवर करने वाले 45 बेंचमार्क परीक्षण बनाए, जिसमें प्रत्येक प्लेटफॉर्म के 6 बुनियादी कार्य और 3 उन्नत कार्य शामिल हैं। इसके अलावा, उन्होंने GUIDE और GUI-World जैसे सार्वजनिक बेंचमार्क परीक्षणों का भी उपयोग किया। परिणाम बताते हैं कि Ferret-UI2 सभी परीक्षण बेंचमार्क में Ferret-UI से बेहतर है, विशेष रूप से उन्नत कार्यों में महत्वपूर्ण प्रगति दिखाई देती है, जो इसके क्रॉस-प्लेटफ़ॉर्म UI समझने वाले कार्यों को संभालने की बहुपरकारीता को साबित करता है।

अवशिष्ट अध्ययन से यह भी स्पष्ट होता है कि Ferret-UI2 की आर्किटेक्चर सुधार और डेटा सेट सुधार ने प्रदर्शन में योगदान दिया है, जिसमें नए डेटा सेट का प्रभाव अधिक चुनौतीपूर्ण कार्यों पर अधिक स्पष्ट है। इसके अलावा, Ferret-UI2 क्रॉस-प्लेटफ़ॉर्म ट्रांसफर लर्निंग में भी उत्कृष्टता दिखाता है, विशेष रूप से iPhone, iPad और Android प्लेटफार्मों के बीच अच्छी सामान्यीकरण क्षमता के साथ।

मॉडल का पता: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

पत्र का पता: https://arxiv.org/pdf/2410.18967