微软近日发布了 OmniParser V2.0,这是一个旨在将用户界面(UI)截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能,帮助用户更好地理解和操作屏幕上的信息。

该工具的训练数据集包括一个可交互图标检测数据集,该数据集从热门网页中精心挑选并自动注释,以突出可点击和可操作的区域。此外,还有一个图标描述数据集,旨在将每个 UI 元素与其对应的功能相结合。

QQ_1739759294065.png

在 V2.0版本中,OmniParser 进行了显著改进,更新后的数据集更大且更干净,图标的描述与定位效果提高了60%。根据测试,该版本的平均延迟也大幅降低,在 A100设备上约为0.6秒 / 帧,而在单个4090显卡上为0.8秒 / 帧。性能方面,OmniParser 在 ScreenSpot Pro 测试中获得了39.6的平均准确率。

用户只需使用 OmniTool 这一工具即可控制 Windows11虚拟机,OmniTool 与 OmniParser 结合使用,用户还可以选择适合的视觉模型。当前 OmniTool 支持多种大型语言模型,如 OpenAI 的多个版本、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic Computer Use,方便用户进行各种操作。

OmniParser 旨在将非结构化的截图图像转换为结构化的元素列表,包括可交互区域的位置和图标的潜在功能描述。使用该工具的用户需具备基本的分析能力和批判性思维,因为虽然 OmniParser 能够提取信息,最终的判断仍需用户自行做出。此工具可用于多种类型的截图,包括 PC 和手机界面,适应性强。

不过,OmniParser 的局限性也值得注意。该工具并不检测输入中的有害内容,因此用户应当谨慎提供输入,确保不含有害信息。同时,尽管 OmniParser 仅将截图转化为文本,它仍可用于构建可操作的图形用户界面代理。开发者在使用 OmniParser 构建和运营代理时,需遵循安全标准和道德规范。

模型:https://huggingface.co/microsoft/OmniParser-v2.0

项目:https://github.com/microsoft/OmniParser/tree/master

划重点:  

🔍 OmniParser V2.0是一款智能解析工具,能将 UI 截图转换为结构化信息,提升用户操作体验。  

⚡ 新版本改进显著,平均延迟减少至0.6秒 / 帧,准确率达39.6%。  

🔐 使用时需注意输入内容的安全性,开发者应遵循安全标准与伦理规范。