英国萨里大学和斯坦福大学的研究团队开发了一种新方法,教会人工智能(AI)理解人类线描草图,即使是非艺术家绘制的。该模型在识别场景草图方面接近人类水平的表现。

image.png

萨里大学视觉、语音和信号处理中心(CVSSP)和萨里人民中心人工智能研究所(PAI)的讲师 Yulia Gryaditskaya 博士表示:“草图是一种强大的视觉沟通语言。它有时甚至比口头语言更具表现力和灵活性。开发理解草图的工具是迈向更强大的人机交互和更高效的设计工作流程的一步。例如,可以通过草图搜索或创建图像。” 无论年龄和背景如何,人们都使用绘画来探索新想法和沟通。然而,人工智能系统在理解草图方面一直存在问题。人工智能必须学会理解图像。通常情况下,这需要一个费时费力的过程,收集图像中每个像素的标签。然后人工智能从这些标签中学习。

然而,研究团队通过草图和文字描述的组合教会了人工智能。它学会了对像素进行分组,将其与描述中的类别进行匹配。结果,人工智能展现出比以往更丰富和更接近人类的理解能力。它能够以85% 的准确度正确识别和标记风筝、树、长颈鹿和其他对象,胜过依赖于标记像素的其他模型。除了识别复杂场景中的对象,它还可以确定每一笔画是用来描绘哪个对象的。这种新方法不仅适用于非艺术家绘制的非正式草图,还适用于没有明确训练的对象绘制的草图。

斯坦福大学心理学助理教授 Judith Fan 表示:“绘画和书写是最典型的人类活动之一,长期以来一直用于捕捉人们的观察和想法。这项工作在 AI 系统能理解人们尝试传达的想法本质方面取得了令人振奋的进展,无论他们是使用图片还是文字。” 该研究是萨里大学人民中心人工智能研究所的一部分,特别是其 SketchX 计划。SketchX 利用人工智能,试图通过我们绘制的方式理解我们看到世界的方式。

人民中心人工智能研究所联合主任、SketchX 负责人宋一哲教授表示:“这项研究是 AI 如何增强草图等基本人类活动的一个典型例子。通过以接近人类的准确度理解粗糙草图,这项技术有巨大潜力,能增强人们的自然创造力,无论艺术天赋如何。” 

论文地址:https://arxiv.org/abs/2312.12463