微软OmniParser开源项目跃居HuggingFace最受欢迎模型榜首

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月1号 11:28

496

微软近期推出的屏幕内容解析工具OmniParser，本周跃居人工科技开源平台HuggingFace最受欢迎模型榜首。据HuggingFace联合创始人兼首席执行官Clem Delangue表示，这是该领域首个获此殊荣的解析工具。

OmniParser主要用于将屏幕截图转化为结构化数据，帮助其他系统更好地理解和处理图形用户界面。该工具采用多模型协同工作方式:YOLOv8负责检测可交互元素位置，BLIP-2分析元素用途，同时配备光学字符识别模块提取文本信息，最终实现对界面的全面解析。

这一开源工具具有广泛的兼容性，可支持多种主流视觉模型。微软合作伙伴研究经理Ahmed Awadallah强调，开放合作对推动技术发展至关重要，OmniParser正是践行这一理念的产物。

目前，科技巨头纷纷布局屏幕交互领域。Anthropic发布了名为"Computer Use"的闭源解决方案，苹果则推出了针对移动界面的Ferret-UI。相比之下，OmniParser凭借其跨平台通用性，展现出独特优势。

不过，OmniParser仍面临一些技术挑战，如重复图标识别和文本重叠场景下的精确定位等问题。但开源社区普遍认为，随着更多开发者参与改进，这些问题有望得到解决。

OmniParser的迅速走红，显示出开发者对通用型屏幕交互工具的迫切需求，也预示着这一领域可能迎来快速发展。

地址:https://microsoft.github.io/OmniParser/

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。此外，还有一个图标描述数据集，旨在将每个 UI 元素与其对应的功能相结合。在 V2.0版本中，OmniParser 进行了显著改进，更新后的数据集更大且更干净，图标的

HuggingFace发布AI Agent课程

Hugging Face 近期推出了一门名为 “Agent课程” 的在线学习课程，旨在帮助学习者深入理解智能Agent的基础知识及应用。课程内容丰富，共分为五个单元，从Agent的基本概念到最终的作业评估，循序渐进，帮助学员掌握所需技能。课程的首个单元为 “欢迎来到课程”，提供了课程的概述、指导方针以及所需工具，确保学员在学习过程中拥有良好的基础。接下来是 “Agent简介” 单元，学员将了解智能Agent的定义、大型语言模型（LLMs）的概念以及特殊符号的使用。第三个单元聚焦于各种框架的介

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。令人惊讶的是，通义千问 Qwen 已经发展成为全球最大的开源模型族群，其

黑客利用 “损坏” pickle 文件在 HuggingFace 上传恶意 AI 模型

近日，网络安全研究人员发现，在知名机器学习平台 HuggingFace 上，有两个恶意的机器学习模型悄然上传。这些模型使用了一种新奇的技术，通过 “损坏” 的 pickle 文件成功规避了安全检测，令人担忧。ReversingLabs 的研究员卡洛・赞基（Karlo Zanki）指出，从这些 PyTorch 格式的存档中提取的 pickle 文件开头，暗示了其中包含恶意的 Python 代码。这些恶意代码主要是反向 shell，能够连接到硬编码的 IP 地址，实现黑客的远程控制。这种利用 pickle 文件的攻击方法被称为 nullifAI，目的是绕过现有的安全