आर्टिफिशियल इंटेलिजेंस तकनीक के निरंतर विकास के साथ, उपयोगकर्ता इंटरफ़ेस (UI) की समझ एक सहज और उपयोगी AI अनुप्रयोग बनाने की एक महत्वपूर्ण चुनौती बन गई है। हाल ही में, एप्पल के शोधकर्ताओं ने एक नए पेपर में UI-JEPA का परिचय दिया, जो एक ऐसा ढांचा है जिसे हल्के उपकरणों के लिए UI समझ को लागू करने के लिए डिज़ाइन किया गया है, जो न केवल उच्च प्रदर्शन बनाए रखता है, बल्कि UI समझ की गणनात्मक आवश्यकताओं को भी महत्वपूर्ण रूप से कम करता है।

UI समझ की चुनौती विभिन्न मोड फीचर्स को संभालने की आवश्यकता में है, जिसमें छवियाँ और प्राकृतिक भाषा शामिल हैं, ताकि UI अनुक्रम में समय संबंधों को पकड़ सकें। हालांकि, मल्टी-मोडल बड़े भाषा मॉडल (MLLM) जैसे कि Anthropic Claude3.5Sonnet और OpenAI GPT-4Turbo ने व्यक्तिगत योजना में प्रगति की है, लेकिन इन मॉडलों को भारी गणनात्मक संसाधनों, विशाल मॉडल आकार की आवश्यकता होती है और उच्च विलंबता लाते हैं, जो कम विलंबता और बढ़ी हुई गोपनीयता की आवश्यकता वाले हल्के उपकरण समाधान के लिए उपयुक्त नहीं हैं।

QQ20240914-153931.png

UI-JEPA ढांचा छवि स्रोत:arXiv

UI-JEPA की प्रेरणा Meta AI के मुख्य वैज्ञानिक Yann LeCun द्वारा 2022 में पेश किए गए संयुक्त एम्बेडिंग भविष्यवाणी ढांचे (JEPA) से मिली, जो एक आत्म-निगरानी शिक्षण विधि है। JEPA छवियों या वीडियो में ढके हुए क्षेत्रों की भविष्यवाणी करके अर्थात्मक प्रतिनिधित्व सीखता है, जो समस्या के आयाम को महत्वपूर्ण रूप से कम करता है, जिससे छोटे मॉडल समृद्ध प्रतिनिधित्व सीखने में सक्षम होते हैं।

UI-JEPA ढांचा वीडियो ट्रांसफार्मर एन्कोडर और केवल डिकोडर भाषा मॉडल के दो मुख्य घटकों से मिलकर बना है। वीडियो ट्रांसफार्मर एन्कोडर एक JEPA-आधारित मॉडल है, जो UI इंटरैक्शन के वीडियो को अमूर्त विशेषताओं के प्रतिनिधित्व में परिवर्तित करता है। LM वीडियो एम्बेडिंग को अपनाता है और उपयोगकर्ता के इरादे का पाठ विवरण उत्पन्न करता है। शोधकर्ताओं ने Microsoft Phi-3 का उपयोग किया, जो लगभग 3 बिलियन पैरामीटर के साथ एक हल्का LM है, जो उपकरण पर प्रयोग और तैनाती के लिए बहुत उपयुक्त है।

QQ20240914-154008.png

UI-JEPA के IIT और IIW डेटा सेट के उदाहरण छवि स्रोत:arXiv

UI समझ के शोध को आगे बढ़ाने के लिए, शोधकर्ताओं ने दो नए मल्टी-मोडल डेटा सेट और मानक पेश किए: "फील्ड इरादे" (IIW) और "टेम्ड इरादे" (IIT)। IIW खुले UI संचालन अनुक्रमों को पकड़ सकता है जिनमें अस्पष्ट उपयोगकर्ता इरादे होते हैं, जबकि IIT अधिक स्पष्ट इरादों वाले सामान्य कार्यों पर ध्यान केंद्रित करता है।

नए मानक पर UI-JEPA के प्रदर्शन का मूल्यांकन दिखाता है कि यह कम नमूना सेटिंग्स में अन्य वीडियो एन्कोडर मॉडलों की तुलना में बेहतर प्रदर्शन करता है और बड़े बंद मॉडलों के समकक्ष प्रदर्शन प्राप्त करता है। शोधकर्ताओं ने पाया कि UI से निकाले गए पाठ को ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) का उपयोग करके एकीकृत करना UI-JEPA के प्रदर्शन को और बढ़ा सकता है।

UI-JEPA मॉडल के संभावित उपयोगों में AI एजेंटों के लिए स्वचालित फीडबैक लूप बनाना शामिल है, जिससे वे बिना मानव हस्तक्षेप के इंटरैक्शन से लगातार सीख सकें, और UI-JEPA को उन एजेंट ढांचों में एकीकृत करना जो विभिन्न अनुप्रयोगों और शैलियों में उपयोगकर्ता इरादों को ट्रैक करने के लिए डिज़ाइन किए गए हैं।

एप्पल का UI-JEPA मॉडल Apple Intelligence के लिए बहुत उपयुक्त प्रतीत होता है, जो एक हल्का जनरेटिव AI टूल सेट है, जिसका उद्देश्य Apple उपकरणों को अधिक स्मार्ट और प्रभावी बनाना है। एप्पल की गोपनीयता पर ध्यान देने के कारण, UI-JEPA मॉडल की कम लागत और अतिरिक्त दक्षता इसे अन्य क्लाउड मॉडल पर निर्भर करने वाले सहायक उपकरणों की तुलना में अधिक लाभकारी बना सकती है।