苹果公司近日发布了新一代人工智能系统Ferret-UI2。这款跨平台AI助手在UI元素识别方面取得重大突破,测试得分达89.73,大幅领先GPT-4V的77.73分,展现出卓越的性能表现。

这套系统最大的特点在于其智能理解用户意图的能力。不同于传统基于坐标点击的操作方式,Ferret-UI2能够根据用户的自然语言指令,自动定位并执行相应操作。研究团队通过借助GPT-4V的视觉能力生成训练数据,使系统能够更好地理解界面元素之间的空间关系。

image.png

在技术架构上,Ferret-UI2采用了自适应设计,可在iPhone、iPad、安卓设备、网页浏览器和Apple TV等多个平台上准确识别UI元素。系统还配备了智能算法,能够根据不同平台自动调整图像分辨率和处理需求,在保留信息完整性的同时确保本地运算效率。

1.png

实际测试数据显示,该系统在各平台上表现优异:iPhone端运行流畅,iPad端准确率达68%,安卓设备上的成功率更是达到71%。不过在跨设备场景下,比如在移动设备与电视或网页界面之间切换时,仍存在一定挑战,这主要源于不同平台间界面布局的差异。

值得注意的是,UI交互AI领域竞争日益激烈。Anthropic最近升级了Claude3.5Sonnet的UI交互能力,微软则开源了OmniParser工具,致力于将屏幕内容转化为结构化数据。

苹果同时推出的CAMPHOR框架,通过专业AI代理和主控推理代理的配合,进一步增强了系统处理复杂任务的能力。这意味着未来Siri等语音助手将能更智能地完成诸如餐厅预订等复杂任务,无需用户手动操作界面。

这项技术的突破不仅提升了跨设备操作的智能化水平,也为下一代人机交互描绘了清晰的发展蓝图。随着技术的持续演进,更智能、更自然的人机交互体验已经触手可及。