एप्पल कंपनी ने हाल ही में नई पीढ़ी के आर्टिफिशियल इंटेलिजेंस सिस्टम Ferret-UI2 को लॉन्च किया है। यह क्रॉस-प्लेटफ़ॉर्म एआई सहायक UI तत्वों की पहचान में महत्वपूर्ण प्रगति हासिल कर चुका है, परीक्षण स्कोर 89.73 है, जो GPT-4V के 77.73 अंक से काफी आगे है, जो इसकी उत्कृष्ट प्रदर्शन क्षमता को दर्शाता है।

इस सिस्टम की सबसे बड़ी विशेषता इसकी उपयोगकर्ता इरादे को समझने की क्षमता है। पारंपरिक समन्वय क्लिक आधारित संचालन के तरीके से भिन्न, Ferret-UI2 उपयोगकर्ता की प्राकृतिक भाषा निर्देशों के अनुसार स्वचालित रूप से स्थिति निर्धारित कर सकता है और संबंधित कार्यों को निष्पादित कर सकता है। अनुसंधान टीम ने GPT-4V की दृश्य क्षमता का उपयोग करके प्रशिक्षण डेटा उत्पन्न किया, जिससे सिस्टम को इंटरफ़ेस तत्वों के बीच के स्थानिक संबंधों को बेहतर ढंग से समझने में मदद मिली।

image.png

तकनीकी संरचना के संदर्भ में, Ferret-UI2 ने अनुकूलनशील डिज़ाइन अपनाया है, जो iPhone, iPad, एंड्रॉइड उपकरणों, वेब ब्राउज़र और Apple TV जैसे कई प्लेटफार्मों पर UI तत्वों की सटीक पहचान कर सकता है। सिस्टम में एक स्मार्ट एल्गोरिदम भी है, जो विभिन्न प्लेटफार्मों के अनुसार छवि रिज़ॉल्यूशन और प्रसंस्करण आवश्यकताओं को स्वचालित रूप से समायोजित कर सकता है, जानकारी की पूर्णता को बनाए रखते हुए स्थानीय गणना दक्षता सुनिश्चित करता है।

1.png

वास्तविक परीक्षण डेटा दिखाता है कि यह सिस्टम सभी प्लेटफार्मों पर उत्कृष्ट प्रदर्शन करता है: iPhone पर यह सुचारू रूप से चलता है, iPad पर इसकी सटीकता 68% है, जबकि एंड्रॉइड उपकरणों पर सफलता दर 71% तक पहुंच गई है। हालांकि, क्रॉस-डिवाइस परिदृश्यों में, जैसे कि मोबाइल उपकरणों और टेलीविज़न या वेब इंटरफ़ेस के बीच स्विच करते समय, अभी भी कुछ चुनौतियाँ हैं, जो मुख्य रूप से विभिन्न प्लेटफार्मों के बीच इंटरफ़ेस लेआउट के अंतर के कारण हैं।

यह ध्यान देने योग्य है कि UI इंटरैक्शन एआई क्षेत्र में प्रतिस्पर्धा बढ़ती जा रही है। एंथ्रोपिक ने हाल ही में Claude3.5Sonnet की UI इंटरैक्शन क्षमताओं को अपग्रेड किया है, जबकि माइक्रोसॉफ्ट ने स्क्रीन सामग्री को संरचित डेटा में परिवर्तित करने के लिए OmniParser टूल को ओपन-सोर्स किया है।

एप्पल ने साथ में CAMPHOR फ्रेमवर्क लॉन्च किया है, जो पेशेवर एआई एजेंट और मुख्य नियंत्रण निष्कर्ष एजेंट के संयोजन के माध्यम से सिस्टम की जटिल कार्यों को संभालने की क्षमता को और बढ़ाता है। इसका मतलब है कि भविष्य में Siri जैसे वॉयस असिस्टेंट जटिल कार्यों जैसे कि रेस्तरां की बुकिंग को और अधिक बुद्धिमानी से पूरा कर सकेंगे, बिना उपयोगकर्ता को इंटरफ़ेस पर मैन्युअल रूप से操作 करने की आवश्यकता के।

इस तकनीक की प्रगति न केवल क्रॉस-डिवाइस संचालन के बुद्धिमानी स्तर को बढ़ाती है, बल्कि अगली पीढ़ी के मानव-मशीन इंटरैक्शन के लिए एक स्पष्ट विकास योजना का चित्रण करती है। जैसे-जैसे तकनीक लगातार विकसित होती है, एक और अधिक बुद्धिमान, और स्वाभाविक मानव-मशीन इंटरैक्शन अनुभव अब हमारी पहुंच में है।