在数字化时代,我们每天都在与海量图片打交道。但你有没有想过,如果能够通过一张草图、一幅艺术画,甚至是一张模糊不清的照片,就迅速找到我们想要的图片,那将是多么神奇的体验?北京大学的袁粒课题组与南洋理工大学、清华自动化所的研究人员们,就给我们带来了这样一个惊喜——一种全新的图像检索技术,它能够应对多样化的查询风格,无论是草图、艺术画还是低分辨率图像,都能精准匹配。

这项技术的核心,是他们提出的“通用风格检索”方法。它不同于传统的基于文本的图片检索,新方法能够处理多种查询风格,甚至是组合查询,如草图加文本,艺术画加文本等。这不仅提升了检索的灵活性,也极大地提高了检索的准确性。

image.png

为了实现这一目标,研究团队构建了两个独特的数据集:DSR(Diverse-Style Retrieval Dataset)和ImageNet-X。DSR包含了10,000张自然图片和四种检索风格的对应文本,而ImageNet-X则包含了100万张带有各种风格标注的自然图片。这两个数据集的建立,为新方法提供了丰富的训练和测试资源。

更令人兴奋的是,研究团队还提出了一个名为FreestyleRet的框架。这个框架通过提取图片风格并将其注入到检索模型中,有效解决了现有模型无法兼容不同类型检索向量的问题。FreestyleRet框架由三个主要模块组成:风格提取模块、风格空间构建模块和风格启发的提示微调模块。这些模块共同工作,使得检索模型能够理解和处理各种风格的查询向量。

image.png

在实验中,FreestyleRet框架展现出了卓越的性能。它不仅在DSR和ImageNet-X数据集上的Recall@1和Recall@5性能上取得了显著提升,而且在处理多种不同风格的查询向量时,也表现出了良好的泛化能力和扩展性。

这项研究的成果已经公开发表,并在arXiv上可以查阅到详细的论文。同时,相关的代码和数据集也已经开源,供有兴趣的研究者和开发者进一步探索和应用。

这不仅仅是图像检索领域的一次技术飞跃,更是对我们每个人日常生活的一次巨大便利。想象一下,未来无论是寻找灵感、进行学术研究还是日常娱乐,我们都将能够更加快捷、准确地找到所需的图片资源。这正是科技的力量,让一切变得可能。

论文地址:https://arxiv.org/pdf/2312.02428