तिंहुआ विश्वविद्यालय की ज़ीपु एआई टीम ने CogAgent लॉन्च किया है, जो एक दृश्य भाषा मॉडल है जो ग्राफिकल यूजर इंटरफेस (GUI) की समझ और नेविगेशन में सुधार पर केंद्रित है। यह जटिल GUI तत्वों को संसाधित करने के लिए डुअल एनकोडर सिस्टम का उपयोग करता है। मॉडल उच्च रिज़ॉल्यूशन इनपुट प्रोसेसिंग, पीसी और एंड्रॉइड प्लेटफार्मों पर GUI नेविगेशन, और टेक्स्ट और विजुअल प्रश्नोत्तर कार्यों में उत्कृष्ट प्रदर्शन करता है। CogAgent के संभावित अनुप्रयोगों में स्वचालित GUI संचालन, GUI सहायता और मार्गदर्शन प्रदान करना, और नए GUI डिज़ाइन और इंटरैक्शन तरीकों को बढ़ावा देना शामिल है। हालांकि यह अभी भी प्रारंभिक विकास चरण में है, लेकिन यह मॉडल कंप्यूटर इंटरैक्शन के तरीके में महत्वपूर्ण बदलाव लाने की उम्मीद करता है।
त्सिंग हुआ विश्वविद्यालय ने नया दृश्य भाषा मॉडल CogAgent विकसित किया, GUI की समझ और नेविगेशन को गहरा किया
