zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2023-12-27 15:35:05
.
AIbase
.
4.5k
清华大学研发新视觉语言模型CogAgent,深化GUI理解与导航
["清华大学智普AI团队发布名为CogAgent的新视觉语言模型,专注于理解和导航图形用户界面(GUI)。","CogAgent采用双编码器系统,处理复杂GUI元素和文本,在处理1120x1120像素的高分辨率输入方面表现出色。","模型在PC和Android平台的GUI导航任务中优于现有LLM方法,同时在文本和视觉问答基准上也表现卓越。","潜在应用包括自动化GUI操作、提供GUI帮助和指导,以及开发新的GUI设计和交互方式。","虽然CogAgent仍处于早期开发阶段,但其创新性的高分辨率图像处理方法使其在自动化GUI操作和解释任务中具有潜力。"]
2023-12-21 08:37:02
.
AIbase
.
4.4k
智谱 AI 开源视觉语言模型 CogAgent,支持 GUI 图形界面问答
["智谱 AI 开源了 CogAgent,它是一个视觉语言模型拥有 180 亿参数规模。","CogAgent 在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。","该模型支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。","CogAgent 还支持 OCR 相关任务,通过预训练和微调,其能力得到了显著提升。","模型可以通过上传截图来进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。"]