Na era digital, lidamos com uma quantidade enorme de imagens todos os dias. Mas você já pensou como seria incrível encontrar a imagem que procura a partir de um esboço, uma pintura artística ou até mesmo uma foto embaçada? Um grupo de pesquisa liderado por Yuan Li na Universidade de Pequim, em colaboração com pesquisadores da Universidade Tecnológica de Nanyang e do Instituto de Automação de Tsinghua, nos trouxe essa maravilha: uma nova técnica de recuperação de imagens que lida com diversos estilos de consulta, sejam esboços, pinturas artísticas ou imagens de baixa resolução, com precisão.
O cerne dessa tecnologia é o método de "recuperação de estilo universal" proposto pela equipe. Diferentemente dos métodos tradicionais de recuperação de imagens baseados em texto, o novo método consegue processar múltiplos estilos de consulta, inclusive consultas combinadas, como esboço + texto, pintura artística + texto, etc. Isso não só aumenta a flexibilidade da recuperação, como também melhora significativamente a precisão.
Para alcançar esse objetivo, a equipe de pesquisa construiu dois conjuntos de dados únicos: DSR (Diverse-Style Retrieval Dataset) e ImageNet-X. O DSR contém 10.000 imagens naturais e textos correspondentes em quatro estilos de recuperação, enquanto o ImageNet-X contém 1 milhão de imagens naturais com diversas anotações de estilo. A criação desses dois conjuntos de dados forneceu recursos abundantes de treinamento e teste para o novo método.
Ainda mais emocionante é que a equipe de pesquisa também propôs uma estrutura chamada FreestyleRet. Essa estrutura extrai o estilo da imagem e o injeta no modelo de recuperação, resolvendo eficazmente o problema da incompatibilidade de vetores de recuperação de diferentes tipos nos modelos existentes. A estrutura FreestyleRet é composta por três módulos principais: módulo de extração de estilo, módulo de construção de espaço de estilo e módulo de ajuste fino de dicas inspiradas em estilo. Esses módulos trabalham em conjunto para permitir que o modelo de recuperação compreenda e processe vetores de consulta de vários estilos.
Nos experimentos, a estrutura FreestyleRet demonstrou desempenho excepcional. Não só obteve melhorias significativas no Recall@1 e Recall@5 nos conjuntos de dados DSR e ImageNet-X, como também apresentou boa capacidade de generalização e extensibilidade no processamento de vetores de consulta de diferentes estilos.
Os resultados desta pesquisa foram publicados e o artigo completo pode ser encontrado no arXiv. O código e os conjuntos de dados também foram disponibilizados publicamente para que pesquisadores e desenvolvedores interessados possam explorar e aplicar ainda mais.
Isso não é apenas um salto tecnológico na área de recuperação de imagens, mas também uma grande conveniência para o nosso dia a dia. Imagine: no futuro, seja para buscar inspiração, realizar pesquisas acadêmicas ou entretenimento diário, poderemos encontrar os recursos de imagem necessários de forma mais rápida e precisa. Essa é a força da tecnologia, tornando tudo possível.
Endereço do artigo: https://arxiv.org/pdf/2312.02428