En la era digital, interactuamos diariamente con una gran cantidad de imágenes. Pero, ¿ha considerado alguna vez lo increíble que sería poder encontrar rápidamente la imagen que busca utilizando un simple boceto, una obra de arte o incluso una fotografía borrosa? El equipo de Yuan Li de la Universidad de Pekín, junto con investigadores de la Universidad Tecnológica de Nanyang y el Instituto de Automatización de Tsinghua, nos ofrecen una sorpresa: una nueva técnica de recuperación de imágenes que puede manejar diversos estilos de consulta, desde bocetos y pinturas artísticas hasta imágenes de baja resolución, con una precisión excepcional.

El núcleo de esta tecnología es el método de "recuperación de estilo universal" que propusieron. A diferencia de los métodos tradicionales de recuperación de imágenes basados en texto, este nuevo método puede procesar múltiples estilos de consulta, incluso consultas combinadas, como bocetos más texto, pinturas artísticas más texto, etc. Esto no solo aumenta la flexibilidad de la recuperación, sino que también mejora significativamente su precisión.

image.png

Para lograr este objetivo, el equipo de investigación creó dos conjuntos de datos únicos: DSR (Diverse-Style Retrieval Dataset) e ImageNet-X. DSR contiene 10.000 imágenes naturales y el texto correspondiente en cuatro estilos de recuperación, mientras que ImageNet-X contiene 1 millón de imágenes naturales con etiquetas de varios estilos. La creación de estos dos conjuntos de datos proporciona abundantes recursos de entrenamiento y prueba para el nuevo método.

Más emocionante aún, el equipo de investigación también propuso un marco llamado FreestyleRet. Este marco extrae el estilo de la imagen y lo inyecta en el modelo de recuperación, resolviendo eficazmente el problema de la incompatibilidad de los vectores de consulta de diferentes tipos en los modelos existentes. El marco FreestyleRet consta de tres módulos principales: un módulo de extracción de estilo, un módulo de construcción de espacio de estilo y un módulo de ajuste fino de indicaciones inspirado en el estilo. Estos módulos trabajan juntos para permitir que el modelo de recuperación comprenda y procese vectores de consulta de varios estilos.

image.png

En los experimentos, el marco FreestyleRet mostró un rendimiento excepcional. No solo logró una mejora significativa en el rendimiento de Recall@1 y Recall@5 en los conjuntos de datos DSR e ImageNet-X, sino que también mostró una buena capacidad de generalización y escalabilidad en el manejo de vectores de consulta de diferentes estilos.

Los resultados de esta investigación se han publicado y el artículo completo está disponible en arXiv. Además, el código y los conjuntos de datos relacionados se han publicado como código abierto para que investigadores y desarrolladores interesados puedan explorarlos y aplicarlos.

Esto no es solo un gran avance en el campo de la recuperación de imágenes, sino también una gran comodidad para la vida diaria de cada uno de nosotros. Imagine que en el futuro, ya sea para buscar inspiración, realizar investigaciones académicas o entretenimiento diario, podremos encontrar los recursos de imágenes que necesitamos de forma más rápida y precisa. Esta es la fuerza de la tecnología, que hace posible todo.

Enlace al artículo: https://arxiv.org/pdf/2312.02428