清华大学研发新视觉语言模型CogAgent,深化GUI理解与导航
站长之家
18
清华大学智普AI团队推出CogAgent,该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航,采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航以及文本和视觉问答任务上均表现出色。CogAgent的潜在应用包括自动化GUI操作、提供GUI帮助和指导,以及推动新的GUI设计和交互方式。尽管仍在早期开发阶段,但该模型有望在计算机交互方式上带来重大改变。
© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/4550