微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年2月17号 10:28

553

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。

该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。此外，还有一个图标描述数据集，旨在将每个 UI 元素与其对应的功能相结合。

在 V2.0版本中，OmniParser 进行了显著改进，更新后的数据集更大且更干净，图标的描述与定位效果提高了60%。根据测试，该版本的平均延迟也大幅降低，在 A100设备上约为0.6秒 / 帧，而在单个4090显卡上为0.8秒 / 帧。性能方面，OmniParser 在 ScreenSpot Pro 测试中获得了39.6的平均准确率。

用户只需使用 OmniTool 这一工具即可控制 Windows11虚拟机，OmniTool 与 OmniParser 结合使用，用户还可以选择适合的视觉模型。当前 OmniTool 支持多种大型语言模型，如 OpenAI 的多个版本、DeepSeek（R1）、Qwen(2.5VL)和 Anthropic Computer Use，方便用户进行各种操作。

OmniParser 旨在将非结构化的截图图像转换为结构化的元素列表，包括可交互区域的位置和图标的潜在功能描述。使用该工具的用户需具备基本的分析能力和批判性思维，因为虽然 OmniParser 能够提取信息，最终的判断仍需用户自行做出。此工具可用于多种类型的截图，包括 PC 和手机界面，适应性强。

不过，OmniParser 的局限性也值得注意。该工具并不检测输入中的有害内容，因此用户应当谨慎提供输入，确保不含有害信息。同时，尽管 OmniParser 仅将截图转化为文本，它仍可用于构建可操作的图形用户界面代理。开发者在使用 OmniParser 构建和运营代理时，需遵循安全标准和道德规范。

模型:https://huggingface.co/microsoft/OmniParser-v2.0

项目:https://github.com/microsoft/OmniParser/tree/master

划重点:
🔍 OmniParser V2.0是一款智能解析工具，能将 UI 截图转换为结构化信息，提升用户操作体验。
⚡ 新版本改进显著，平均延迟减少至0.6秒 / 帧，准确率达39.6%。
🔐 使用时需注意输入内容的安全性，开发者应遵循安全标准与伦理规范。

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

近年来，随着大型语言模型（LLMs）的快速发展，自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景，展现了强大的能力。然而，传统的 “下一个 token 预测” 范式存在一定局限性，尤其是在处理复杂推理和长期任务时，模型需要经历大量训练才能掌握深层次的概念理解。为了解决这一问题，Meta 等机构的研究者们提出了一种名为 “连续概念混合”（CoCoMix）的新颖预训练框架。这一方法不仅保留了下一个 token 预测的优点，还引入了

HuggingFace发布AI Agent课程

Hugging Face 近期推出了一门名为 “Agent课程” 的在线学习课程，旨在帮助学习者深入理解智能Agent的基础知识及应用。课程内容丰富，共分为五个单元，从Agent的基本概念到最终的作业评估，循序渐进，帮助学员掌握所需技能。课程的首个单元为 “欢迎来到课程”，提供了课程的概述、指导方针以及所需工具，确保学员在学习过程中拥有良好的基础。接下来是 “Agent简介” 单元，学员将了解智能Agent的定义、大型语言模型（LLMs）的概念以及特殊符号的使用。第三个单元聚焦于各种框架的介

Meta AI推出MILS系统教导 LLMs无需专门培训即可处理多媒体数据

Meta AI的研究人员与学术伙伴共同开发了一种创新系统——MILS（多模态迭代LLM求解器），该系统能在无需经过专门训练的情况下，教大型语言模型处理图像、视频和音频。MILS依赖于语言模型的自然问题解决能力，而非大量的数据训练，展现了其独特的优势。MILS的工作原理是通过将两个AI模型配对来进行任务解决:一个是“生成器”，负责提出任务解决方案，另一个是“评分器”，用来评估生成方案的效果。评分器提供的反馈可以帮助生成器不断优化答案，直到达到令人满意的结果。举例来说

AI新闻资讯

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

AIbase基地

相关AI新闻推荐

​AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

HuggingFace发布AI Agent课程

Meta AI推出MILS系统 教导 LLMs无需专门培训即可处理多媒体数据

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

Meta AI推出MILS系统教导 LLMs无需专门培训即可处理多媒体数据