CogAgent
खुले स्रोत वाला एंड-टू-एंड दृश्य भाषा मॉडल (VLM) आधारित GUI एजेंट
सामान्य उत्पादप्रोग्रामिंगदृश्य भाषा मॉडलGUI एजेंट
CogAgent एक दृश्य भाषा मॉडल (VLM) पर आधारित GUI एजेंट है जो स्क्रीनशॉट और प्राकृतिक भाषा के माध्यम से द्विभाषी (चीनी और अंग्रेजी) बातचीत को सक्षम बनाता है। CogAgent ने GUI धारणा, अनुमानित भविष्यवाणी सटीकता, ऑपरेशन स्पेस पूर्णता और कार्य सामान्यीकरण में उल्लेखनीय प्रगति की है। इस मॉडल का उपयोग ZhipuAI के GLM-PC उत्पाद में किया गया है, जिसका उद्देश्य शोधकर्ताओं और डेवलपर्स को दृश्य भाषा मॉडल-आधारित GUI एजेंट अनुसंधान और अनुप्रयोगों को आगे बढ़ाने में मदद करना है।
CogAgent नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
474564576
बाउंस दर
36.20%
प्रति विज़िट औसत पृष्ठ
6.1
औसत विज़िट अवधि
00:06:34