CogAgent
开源的端到端视觉语言模型(VLM)基础的GUI代理
普通产品编程视觉语言模型GUI代理
CogAgent是一个基于视觉语言模型(VLM)的GUI代理,它通过屏幕截图和自然语言实现双语(中文和英文)交云。CogAgent在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面取得了显著进步。该模型已经在ZhipuAI的GLM-PC产品中得到应用,旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理的研究和应用。
CogAgent 最新流量情况
月总访问量
490881889
跳出率
37.92%
平均页面访问数
5.6
平均访问时长
00:06:18