在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。否定在许多应用中至关重要,例如区分 “没有窗户的房间” 和 “有窗户的房间”。尽管 VLMs 取得了显著进展,但在处理否定陈述时,现有模型的表现却大幅下降。这种限制尤其在安全监控和医疗保健等高风险领域中显得尤为重要。现有的 VLMs,如 CLIP,采用共
近日,清华大学智能产业研究院(AIR)在2024年12月24日发布了一项名为 AutoDroid-V2的 AI 模型,旨在优化移动设备的自动化控制能力。该模型通过小型语言模型的应用,显著提升了用户通过自然语言进行操作的效率。AutoDroid-V2采用了一种基于脚本的方法,与传统依赖云端大型语言模型(LLM)的方式不同。这一创新使得设备能够高效执行用户指令,减少了对云服务的依赖,从而在隐私和安全性方面有了显著的提升。同时,它也降低了用户端的流量消耗及服务器端的运行成本,推进了移动设备的广
智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源,以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型,能够仅通过屏幕截图作为输入,根据用户指定的任意任务结合历史操作,预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。
随着数字艺术的发展,自动化的图像处理技术日益受到关注。近日,来自清华大学与腾讯 ARC 实验室的研究团队提出了一种名为 ColorFlow 的新型图像序列上色模型。这一模型旨在解决在黑白图像序列上色的同时,保持角色和物体身份一致性的问题,满足漫画和动画等行业的实际需求。ColorFlow 是一个三阶段的扩散基础框架,它充分利用上下文信息,通过参考图像池为黑白图像序列准确生成颜色。例如,该模型能够有效地为角色的发色和服装上色,确保与参考图像的色彩一致性。与以往需要针