随着人工智能技术的不断进步,用户界面(UI)的理解成为了创建直观且有用的AI应用程序的关键挑战。最近,苹果公司的研究人员在一篇新论文中介绍了UI-JEPA,这是一种旨在实现轻量级设备端UI理解的架构,它不仅保持了高性能,还显著降低了UI理解的计算要求。

UI理解的挑战在于需要处理跨模式特征,包括图像和自然语言,以捕捉UI序列中的时间关系。尽管多模态大型语言模型(MLLM)如Anthropic Claude3.5Sonnet和OpenAI GPT-4Turbo在个性化规划方面取得了进展,但这些模型需要大量的计算资源、巨大的模型大小,并会带来高延迟,不适合需要低延迟和增强隐私的轻量级设备解决方案。

QQ20240914-153931.png

UI-JEPA 架构 图片来源:arXiv

UI-JEPA的灵感来源于Meta AI首席科学家Yann LeCun于2022年推出的联合嵌入预测架构(JEPA),这是一种自监督学习方法。JEPA通过预测图像或视频中被遮盖的区域来学习语义表示,显著降低了问题的维度,使较小的模型能够学习丰富的表示。

UI-JEPA架构由视频转换器编码器和仅解码器语言模型两个主要组件组成。视频转换器编码器是一种基于JEPA的模型,可将UI交互的视频处理为抽象的特征表示。LM采用视频嵌入并生成用户意图的文本描述。研究人员使用了Microsoft Phi-3,这是一款轻量级的LM,具有大约30亿个参数,非常适合在设备上进行实验和部署。

QQ20240914-154008.png

UI-JEPA 的 IIT 和 IIW 数据集示例 图片来源:arXiv

为了进一步推进UI理解的研究,研究人员引入了两个新的多模态数据集和基准:“野外意图”(IIW)和“驯服意图”(IIT)。IIW可捕获具有模糊用户意图的开放式UI操作序列,而IIT专注于意图更明确的常见任务。

在新基准上评估UI-JEPA的性能显示,它在少样本设置中的表现优于其他视频编码器模型,并实现了与更大的封闭模型相当的性能。研究人员发现,使用光学字符识别(OCR)合并从UI中提取的文本可进一步增强UI-JEPA的性能。

UI-JEPA模型的潜在用途包括为AI代理创建自动反馈循环,使它们能够在没有人工干预的情况下从交互中不断学习,以及将UI-JEPA集成到旨在跟踪不同应用程序和模式中用户意图的代理框架中。

苹果公司的UI-JEPA模型似乎非常适合Apple Intelligence,这是一套轻量级的生成式AI工具,旨在让Apple设备更智能、更高效。鉴于苹果对隐私的关注,UI-JEPA模型的低成本和额外效率可以使其AI助手比其他依赖云模型的助手更具优势。