À l'ère du numérique, nous interagissons quotidiennement avec une quantité massive d'images. Mais avez-vous déjà pensé à la possibilité de trouver rapidement l'image souhaitée à partir d'un simple croquis, d'une œuvre d'art, ou même d'une photo floue ? L'équipe de Yuan Li de l'Université de Pékin, en collaboration avec des chercheurs de l'Université technologique de Nanyang et de l'Institut d'automatisation de Tsinghua, nous offre une telle prouesse : une nouvelle technique de recherche d'images capable de gérer des styles de requête variés, qu'il s'agisse de croquis, d'œuvres d'art ou d'images basse résolution, avec une précision remarquable.

Au cœur de cette technologie se trouve la méthode de « recherche de style universel » qu'ils ont développée. Contrairement aux méthodes traditionnelles de recherche d'images basées sur du texte, cette nouvelle approche peut traiter de multiples styles de requête, voire des requêtes combinées, comme un croquis plus du texte, une œuvre d'art plus du texte, etc. Cela améliore non seulement la flexibilité de la recherche, mais aussi considérablement sa précision.

image.png

Pour atteindre cet objectif, l'équipe de recherche a créé deux ensembles de données uniques : DSR (Diverse-Style Retrieval Dataset) et ImageNet-X. DSR contient 10 000 images naturelles et leurs descriptions textuelles correspondantes pour quatre styles de recherche, tandis qu'ImageNet-X comprend 1 million d'images naturelles annotées avec divers styles. La création de ces deux ensembles de données fournit des ressources d'entraînement et de test abondantes pour la nouvelle méthode.

Plus excitant encore, l'équipe de recherche a proposé un cadre appelé FreestyleRet. Ce cadre extrait le style des images et l'injecte dans le modèle de recherche, résolvant efficacement le problème d'incompatibilité des vecteurs de recherche de différents types dans les modèles existants. FreestyleRet se compose de trois modules principaux : un module d'extraction de style, un module de construction d'espace de style et un module d'ajustement fin des invites inspiré du style. Ces modules travaillent ensemble pour permettre au modèle de recherche de comprendre et de traiter les vecteurs de requête de styles variés.

image.png

Lors des expériences, le cadre FreestyleRet a démontré des performances exceptionnelles. Il a non seulement obtenu une amélioration significative des performances Recall@1 et Recall@5 sur les ensembles de données DSR et ImageNet-X, mais il a également montré une bonne capacité de généralisation et d'extensibilité dans le traitement de vecteurs de requête de styles différents.

Les résultats de cette recherche ont été publiés et l'article détaillé est disponible sur arXiv. Le code et les ensembles de données associés sont également open source, permettant aux chercheurs et développeurs intéressés de les explorer et de les utiliser davantage.

Il ne s'agit pas seulement d'une avancée technologique majeure dans le domaine de la recherche d'images, mais aussi d'un progrès considérable pour notre vie quotidienne. Imaginez : à l'avenir, que ce soit pour trouver l'inspiration, mener des recherches académiques ou se divertir, nous pourrons trouver les ressources d'images dont nous avons besoin plus rapidement et plus précisément. C'est le pouvoir de la technologie qui rend tout cela possible.

Adresse de l'article : https://arxiv.org/pdf/2312.02428