एप्पल UI-JEPA मॉडल का उपयोग करके उपकरणों पर उपयोगकर्ता इरादों को समझने का लक्ष्य रखता है

आर्टिफिशियल इंटेलिजेंस तकनीक के निरंतर विकास के साथ, उपयोगकर्ता इंटरफ़ेस (UI) की समझ एक सहज और उपयोगी AI अनुप्रयोग बनाने की एक महत्वपूर्ण चुनौती बन गई है। हाल ही में, एप्पल के शोधकर्ताओं ने एक नए पेपर में UI-JEPA का परिचय दिया, जो एक ऐसा ढांचा है जिसे हल्के उपकरणों के लिए UI समझ को लागू करने के लिए डिज़ाइन किया गया है, जो न केवल उच्च प्रदर्शन बनाए रखता है, बल्कि UI समझ की गणनात्मक आवश्यकताओं को भी महत्वपूर्ण रूप से कम करता है।

UI समझ की चुनौती विभिन्न मोड फीचर्स को संभालने की आवश्यकता में है, जिसमें छवियाँ और प्राकृतिक भाषा शामिल हैं, ताकि UI अनुक्रम में समय संबंधों को पकड़ सकें। हालांकि, मल्टी-मोडल बड़े भाषा मॉडल (MLLM) जैसे कि Anthropic Claude3.5Sonnet और OpenAI GPT-4Turbo ने व्यक्तिगत योजना में प्रगति की है, लेकिन इन मॉडलों को भारी गणनात्मक संसाधनों, विशाल मॉडल आकार की आवश्यकता होती है और उच्च विलंबता लाते हैं, जो कम विलंबता और बढ़ी हुई गोपनीयता की आवश्यकता वाले हल्के उपकरण समाधान के लिए उपयुक्त नहीं हैं।

UI-JEPA ढांचा छवि स्रोत:arXiv

UI-JEPA की प्रेरणा Meta AI के मुख्य वैज्ञानिक Yann LeCun द्वारा 2022 में पेश किए गए संयुक्त एम्बेडिंग भविष्यवाणी ढांचे (JEPA) से मिली, जो एक आत्म-निगरानी शिक्षण विधि है। JEPA छवियों या वीडियो में ढके हुए क्षेत्रों की भविष्यवाणी करके अर्थात्मक प्रतिनिधित्व सीखता है, जो समस्या के आयाम को महत्वपूर्ण रूप से कम करता है, जिससे छोटे मॉडल समृद्ध प्रतिनिधित्व सीखने में सक्षम होते हैं।

UI-JEPA ढांचा वीडियो ट्रांसफार्मर एन्कोडर और केवल डिकोडर भाषा मॉडल के दो मुख्य घटकों से मिलकर बना है। वीडियो ट्रांसफार्मर एन्कोडर एक JEPA-आधारित मॉडल है, जो UI इंटरैक्शन के वीडियो को अमूर्त विशेषताओं के प्रतिनिधित्व में परिवर्तित करता है। LM वीडियो एम्बेडिंग को अपनाता है और उपयोगकर्ता के इरादे का पाठ विवरण उत्पन्न करता है। शोधकर्ताओं ने Microsoft Phi-3 का उपयोग किया, जो लगभग 3 बिलियन पैरामीटर के साथ एक हल्का LM है, जो उपकरण पर प्रयोग और तैनाती के लिए बहुत उपयुक्त है।

UI-JEPA के IIT और IIW डेटा सेट के उदाहरण छवि स्रोत:arXiv

UI समझ के शोध को आगे बढ़ाने के लिए, शोधकर्ताओं ने दो नए मल्टी-मोडल डेटा सेट और मानक पेश किए: "फील्ड इरादे" (IIW) और "टेम्ड इरादे" (IIT)। IIW खुले UI संचालन अनुक्रमों को पकड़ सकता है जिनमें अस्पष्ट उपयोगकर्ता इरादे होते हैं, जबकि IIT अधिक स्पष्ट इरादों वाले सामान्य कार्यों पर ध्यान केंद्रित करता है।

नए मानक पर UI-JEPA के प्रदर्शन का मूल्यांकन दिखाता है कि यह कम नमूना सेटिंग्स में अन्य वीडियो एन्कोडर मॉडलों की तुलना में बेहतर प्रदर्शन करता है और बड़े बंद मॉडलों के समकक्ष प्रदर्शन प्राप्त करता है। शोधकर्ताओं ने पाया कि UI से निकाले गए पाठ को ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) का उपयोग करके एकीकृत करना UI-JEPA के प्रदर्शन को और बढ़ा सकता है।

UI-JEPA मॉडल के संभावित उपयोगों में AI एजेंटों के लिए स्वचालित फीडबैक लूप बनाना शामिल है, जिससे वे बिना मानव हस्तक्षेप के इंटरैक्शन से लगातार सीख सकें, और UI-JEPA को उन एजेंट ढांचों में एकीकृत करना जो विभिन्न अनुप्रयोगों और शैलियों में उपयोगकर्ता इरादों को ट्रैक करने के लिए डिज़ाइन किए गए हैं।

एप्पल का UI-JEPA मॉडल Apple Intelligence के लिए बहुत उपयुक्त प्रतीत होता है, जो एक हल्का जनरेटिव AI टूल सेट है, जिसका उद्देश्य Apple उपकरणों को अधिक स्मार्ट और प्रभावी बनाना है। एप्पल की गोपनीयता पर ध्यान देने के कारण, UI-JEPA मॉडल की कम लागत और अतिरिक्त दक्षता इसे अन्य क्लाउड मॉडल पर निर्भर करने वाले सहायक उपकरणों की तुलना में अधिक लाभकारी बना सकती है।

AI समाचार

एप्पल UI-JEPA मॉडल का उपयोग करके उपकरणों पर उपयोगकर्ता इरादों को समझने का लक्ष्य रखता है

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

एप्पल ने AI सहयोग का दायरा बढ़ाया: Gemini Apple Intelligence में शामिल होने की संभावना

एप्पल की स्मार्ट सुविधा सरल चीनी भाषा समर्थन अप्रैल में शुरू होगा iOS 18.4 जारी होने के साथ

अली इंटरनेशनल ओपन-सोर्स ओविस2 सीरीज मल्टी-मोडल बड़े भाषा मॉडल के कुल छह संस्करण

अलीबाबा के शेयर की कीमत में उछाल, इसके पीछे कारण वास्तव में आर्टिफिशियल इंटेलिजेंस से संबंधित है