CogAgent-9B-20241220 मॉडल GLM-4V-9B द्विभाषी ओपन-सोर्स VLM आधार मॉडल पर आधारित है। डेटा संग्रह और अनुकूलन, बहु-चरण प्रशिक्षण और रणनीति सुधार के माध्यम से, GUI धारणा, अनुमानित भविष्यवाणी सटीकता, क्रिया स्थान पूर्णता और कार्य सामान्यीकरण के मामले में उल्लेखनीय प्रगति हुई है। यह मॉडल द्विभाषी (चीनी और अंग्रेजी) बातचीत का समर्थन करता है और स्क्रीनशॉट और भाषा इनपुट को संसाधित कर सकता है। यह संस्करण ZhipuAI के GLM-PC उत्पाद में लागू किया गया है, जिसका उद्देश्य शोधकर्ताओं और डेवलपर्स को दृश्य भाषा मॉडल आधारित GUI एजेंट के अनुसंधान और अनुप्रयोग को आगे बढ़ाने में मदद करना है।