智谱 AI 开源视觉语言模型 CogAgent，支持 GUI 图形界面问答

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年12月21号 8:37

智谱 AI 开源了 CogAgent，这是一个视觉语言模型，拥有 180 亿参数规模。CogAgent 在 GUI 理解和导航方面表现出色，在多个基准测试上取得了 SOTA 的通用性能。模型支持高分辨率的视觉输入和对话问答，并且可以针对任意 GUI 截图进行问答。此外，CogAgent 还支持 OCR 相关任务，通过预训练和微调，其能力得到了显著提升。用户可以通过上传截图进行任务推理，并获得计划、下一个动作以及具体操作的坐标信息。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会（GDC）上，阿里云魔搭社区重磅宣布，首发上线阶跃星辰最新开源的两款多模态模型，包括全球参数量最大的开源视频生成模型 Step-Video-T2V，以及业界首款产品级开源语音交互模型 Step-Audio。这一消息瞬间引爆全球AI开源社区，再次彰显中国在人工智能领域的强劲创新实力。作为中国最大的AI模型社区，阿里云魔搭社区此次发布的这两款重磅模型，无疑是近期全球多模态领域最受瞩目的开源成果。 Step-Video-T2V 以其巨大的参数规模

超给力！DeepSeek 宣布下周开源五个项目

近日，DeepSeek 在其官网 X 账号上发布了重磅消息，宣布将在接下来的一个星期内陆续开源五个代码库。该公司表示，当前已经完成的在线服务模块经过严格的测试和部署，已具备投入生产环境的条件。DeepSeek 强调，分享代码的初衷在于希望每一行代码都能成为推动行业前进的强大动力。公司表示，这个领域并不存在所谓的象牙塔，更多的是一种纯粹的车库创业精神和社区共建的创新力量。通过开源代码，DeepSeek 希望能吸引更多开发者的参与，激发社区的活力与创新。作为一家新兴的技术企

Deepseek宣布将连续五天发布5个开源项目推动社区创新

北京时间，2025年2月21日，专注于探索通用人工智能（AGI）的 DeepSeek AI 团队在社交媒体上发布了一则振奋人心的消息，正式拉开了他们参与 #OpenSourceWeek 活动的序幕。这家小型但充满雄心的技术团队宣布，从下周开始，他们将开源5个代码仓库，以完全透明的方式与全球开发者社区分享他们的研究进展。

AI新闻资讯

智谱 AI 开源视觉语言模型 CogAgent，支持 GUI 图形界面问答

站长之家

相关AI新闻推荐

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

超给力！DeepSeek 宣布下周开源五个项目

Deepseek宣布将连续五天发布5个开源项目 推动社区创新

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Deepseek宣布将连续五天发布5个开源项目推动社区创新