आर्टिफिशियल इंटेलिजेंस तकनीक के निरंतर विकास के साथ, उपयोगकर्ता इंटरफ़ेस (UI) की समझ एक सहज और उपयोगी AI अनुप्रयोग बनाने की एक महत्वपूर्ण चुनौती बन गई है। हाल ही में, एप्पल के शोधकर्ताओं ने एक नए पेपर में UI-JEPA का परिचय दिया, जो एक ऐसा ढांचा है जिसे हल्के उपकरणों के लिए UI समझ को लागू करने के लिए डिज़ाइन किया गया है, जो न केवल उच्च प्रदर्शन बनाए रखता है, बल्कि UI समझ की गणनात्मक आवश्यकताओं को भी महत्वपूर्ण रूप से कम करता है।
UI समझ की चुनौती विभिन्न मोड फीचर्स को संभालने की आवश्यकता में है, जिसमें छवियाँ और प्राकृतिक भाषा शामिल हैं, ताकि UI अनुक्रम में समय संबंधों को पकड़ सकें। हालांकि, मल्टी-मोडल बड़े भाषा मॉडल (MLLM) जैसे कि Anthropic Claude3.5Sonnet और OpenAI GPT-4Turbo ने व्यक्तिगत योजना में प्रगति की है, लेकिन इन मॉडलों को भारी गणनात्मक संसाधनों, विशाल मॉडल आकार की आवश्यकता होती है और उच्च विलंबता लाते हैं, जो कम विलंबता और बढ़ी हुई गोपनीयता की आवश्यकता वाले हल्के उपकरण समाधान के लिए उपयुक्त नहीं हैं।
UI-JEPA ढांचा छवि स्रोत:arXiv
UI-JEPA की प्रेरणा Meta AI के मुख्य वैज्ञानिक Yann LeCun द्वारा 2022 में पेश किए गए संयुक्त एम्बेडिंग भविष्यवाणी ढांचे (JEPA) से मिली, जो एक आत्म-निगरानी शिक्षण विधि है। JEPA छवियों या वीडियो में ढके हुए क्षेत्रों की भविष्यवाणी करके अर्थात्मक प्रतिनिधित्व सीखता है, जो समस्या के आयाम को महत्वपूर्ण रूप से कम करता है, जिससे छोटे मॉडल समृद्ध प्रतिनिधित्व सीखने में सक्षम होते हैं।
UI-JEPA ढांचा वीडियो ट्रांसफार्मर एन्कोडर और केवल डिकोडर भाषा मॉडल के दो मुख्य घटकों से मिलकर बना है। वीडियो ट्रांसफार्मर एन्कोडर एक JEPA-आधारित मॉडल है, जो UI इंटरैक्शन के वीडियो को अमूर्त विशेषताओं के प्रतिनिधित्व में परिवर्तित करता है। LM वीडियो एम्बेडिंग को अपनाता है और उपयोगकर्ता के इरादे का पाठ विवरण उत्पन्न करता है। शोधकर्ताओं ने Microsoft Phi-3 का उपयोग किया, जो लगभग 3 बिलियन पैरामीटर के साथ एक हल्का LM है, जो उपकरण पर प्रयोग और तैनाती के लिए बहुत उपयुक्त है।
UI-JEPA के IIT और IIW डेटा सेट के उदाहरण छवि स्रोत:arXiv
UI समझ के शोध को आगे बढ़ाने के लिए, शोधकर्ताओं ने दो नए मल्टी-मोडल डेटा सेट और मानक पेश किए: "फील्ड इरादे" (IIW) और "टेम्ड इरादे" (IIT)। IIW खुले UI संचालन अनुक्रमों को पकड़ सकता है जिनमें अस्पष्ट उपयोगकर्ता इरादे होते हैं, जबकि IIT अधिक स्पष्ट इरादों वाले सामान्य कार्यों पर ध्यान केंद्रित करता है।
नए मानक पर UI-JEPA के प्रदर्शन का मूल्यांकन दिखाता है कि यह कम नमूना सेटिंग्स में अन्य वीडियो एन्कोडर मॉडलों की तुलना में बेहतर प्रदर्शन करता है और बड़े बंद मॉडलों के समकक्ष प्रदर्शन प्राप्त करता है। शोधकर्ताओं ने पाया कि UI से निकाले गए पाठ को ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) का उपयोग करके एकीकृत करना UI-JEPA के प्रदर्शन को और बढ़ा सकता है।
UI-JEPA मॉडल के संभावित उपयोगों में AI एजेंटों के लिए स्वचालित फीडबैक लूप बनाना शामिल है, जिससे वे बिना मानव हस्तक्षेप के इंटरैक्शन से लगातार सीख सकें, और UI-JEPA को उन एजेंट ढांचों में एकीकृत करना जो विभिन्न अनुप्रयोगों और शैलियों में उपयोगकर्ता इरादों को ट्रैक करने के लिए डिज़ाइन किए गए हैं।
एप्पल का UI-JEPA मॉडल Apple Intelligence के लिए बहुत उपयुक्त प्रतीत होता है, जो एक हल्का जनरेटिव AI टूल सेट है, जिसका उद्देश्य Apple उपकरणों को अधिक स्मार्ट और प्रभावी बनाना है। एप्पल की गोपनीयता पर ध्यान देने के कारण, UI-JEPA मॉडल की कम लागत और अतिरिक्त दक्षता इसे अन्य क्लाउड मॉडल पर निर्भर करने वाले सहायक उपकरणों की तुलना में अधिक लाभकारी बना सकती है।