Im digitalen Zeitalter begegnen wir täglich einer riesigen Menge an Bildern. Aber haben Sie sich schon einmal vorgestellt, wie fantastisch es wäre, mit einer Skizze, einem Kunstwerk oder sogar einem unscharfen Foto schnell das gewünschte Bild zu finden? Die Forschungsgruppe von Yuan Li an der Peking-Universität hat zusammen mit Forschern der Nanyang Technological University und des Tsinghua Automation Institute genau das ermöglicht: eine neuartige Bildsuchetechnologie, die verschiedene Abfragestile – Skizzen, Kunstwerke oder Bilder mit niedriger Auflösung – präzise verarbeiten kann.

Das Herzstück dieser Technologie ist die von ihnen entwickelte Methode der „Universal Style Retrieval“. Im Gegensatz zur traditionellen textbasierten Bildsuche kann die neue Methode verschiedene Abfragestile und sogar kombinierte Abfragen, wie Skizze plus Text oder Kunstwerk plus Text, verarbeiten. Dies erhöht nicht nur die Flexibilität der Suche, sondern auch die Genauigkeit erheblich.

image.png

Um dieses Ziel zu erreichen, hat das Forschungsteam zwei einzigartige Datensätze erstellt: DSR (Diverse-Style Retrieval Dataset) und ImageNet-X. DSR enthält 10.000 natürliche Bilder und dazugehörige Texte in vier verschiedenen Abfragestilen, während ImageNet-X 1 Million natürliche Bilder mit verschiedenen Stilmarkierungen umfasst. Diese beiden Datensätze bieten der neuen Methode umfangreiche Ressourcen für Training und Tests.

Noch spannender ist die Entwicklung des FreestyleRet-Frameworks. Dieses Framework extrahiert den Bildstil und integriert ihn in das Suchmodell, wodurch das Problem gelöst wird, dass bestehende Modelle nicht mit verschiedenen Arten von Suchvektoren kompatibel sind. FreestyleRet besteht aus drei Hauptmodulen: einem Stil-Extraktionsmodul, einem Stil-Raum-Konstruktionsmodul und einem stil-inspirierten Prompt-Feinabstimmungsmodul. Diese Module arbeiten zusammen, sodass das Suchmodell verschiedene Stile von Abfragevektoren verstehen und verarbeiten kann.

image.png

In Experimenten zeigte das FreestyleRet-Framework eine hervorragende Leistung. Es erzielte nicht nur eine deutliche Verbesserung der Recall@1 und Recall@5 Werte auf den Datensätzen DSR und ImageNet-X, sondern zeigte auch eine gute Generalisierungs- und Skalierbarkeit bei der Verarbeitung verschiedener Abfragestile.

Die Ergebnisse dieser Forschung wurden veröffentlicht und die detaillierte Arbeit ist auf arXiv verfügbar. Der zugehörige Code und die Datensätze wurden ebenfalls Open Source bereitgestellt, damit interessierte Forscher und Entwickler diese weiter erforschen und anwenden können.

Dies ist nicht nur ein technologischer Sprung im Bereich der Bildsuche, sondern auch eine enorme Erleichterung für unseren Alltag. Stellen Sie sich vor: In Zukunft können wir, egal ob wir Inspiration suchen, wissenschaftliche Forschung betreiben oder uns unterhalten, schneller und genauer die benötigten Bildressourcen finden. Das ist die Kraft der Technologie – sie macht alles möglich.

论文地址:https://arxiv.org/pdf/2312.02428