近日,清华大学智能产业研究院(AIR)在2024年12月24日发布了一项名为 AutoDroid-V2的 AI 模型,旨在优化移动设备的自动化控制能力。该模型通过小型语言模型的应用,显著提升了用户通过自然语言进行操作的效率。
AutoDroid-V2采用了一种基于脚本的方法,与传统依赖云端大型语言模型(LLM)的方式不同。这一创新使得设备能够高效执行用户指令,减少了对云服务的依赖,从而在隐私和安全性方面有了显著的提升。同时,它也降低了用户端的流量消耗及服务器端的运行成本,推进了移动设备的广泛应用。
在项目背景上,近年来,大型语言模型和视觉语言模型的崛起使得通过自然语言命令控制移动设备成为可能。这些技术为复杂用户任务的解决提供了新的途径。然而,传统的 “逐步 GUI 智能体” 方法存在着高流量消耗和隐私安全风险的问题,使得大规模部署面临障碍。
AutoDroid-V2的创新之处在于,它能够根据用户指令生成多步骤脚本,进而一次性执行多个 GUI 操作。这种方式大幅减少了查询频率,降低了资源消耗,并且能够在用户设备上直接生成和执行任务脚本。该模型在离线状态下会构建应用程序文档,为后续的脚本生成打下基础。
在性能测试中,AutoDroid-V2在23款移动应用上进行了226项任务的基准测试,相较于之前的模型,如 AutoDroid 和 SeeClick 等,任务完成率提升了10.5% 到51.7%。此外,其输入和输出的 token 消耗分别减少至43.5分之一和5.8分之一,模型推理延迟降低至原来的5.7到13.4分之一。这些成果显示了 AutoDroid-V2在实际应用中的高效性和可靠性。
划重点:
🌟 AutoDroid-V2是清华大学推出的新 AI 模型,提升了移动设备的自然语言控制效率。
🔒 该模型通过小型语言模型减少了对云端服务的依赖,增强了用户隐私和安全性。
📈 基准测试显示,AutoDroid-V2在任务完成率和资源消耗上均有显著改善,展现出强大的应用潜力。