Na área da visão de IA, a localização de objetos sempre foi um grande desafio. Os algoritmos tradicionais são como "miopes", capazes apenas de delimitar grosseiramente os objetos com "quadros", sem discernir detalhes internos. É como descrever uma pessoa para um amigo apenas com altura e tipo físico aproximado; o amigo dificilmente a encontrará!
Para resolver esse problema, um grupo de especialistas da Universidade Tecnológica de Illinois, do Cisco Research e da Universidade Central da Flórida desenvolveu uma nova estrutura de localização visual chamada SegVG, que promete libertar a IA da "miopia"!
O segredo principal do SegVG é o detalhe em "nível de pixel"! Os algoritmos tradicionais treinam a IA apenas com informações de caixas delimitadoras, como mostrar apenas uma sombra borrada para a IA. Já o SegVG converte as informações de caixas delimitadoras em sinais de segmentação, como se colocasse "óculos de alta definição" na IA, permitindo que ela veja cada pixel do objeto!
Especificamente, o SegVG utiliza um "codificador-decodificador multicamadas e multitarefas". Embora o nome soe complexo, pode ser compreendido como um "microscópio" superpreciso, contendo consultas para regressão e várias consultas para segmentação. Em resumo, utiliza diferentes "lentes" para executar tarefas de regressão de caixa delimitadora e segmentação, observando repetidamente o objeto e extraindo informações mais detalhadas.
Ainda mais impressionante, o SegVG introduz um "módulo de alinhamento ternário", como se equipasse a IA com um "tradutor" para resolver o problema de "incompatibilidade de linguagem" entre os parâmetros de pré-treinamento do modelo e a incorporação de consultas. Por meio do mecanismo de atenção ternário, esse "tradutor" pode "traduzir" as consultas, o texto e as características visuais para o mesmo canal, permitindo que a IA compreenda melhor as informações do objeto.
Como o SegVG se sai na prática? Os especialistas realizaram experimentos em cinco conjuntos de dados amplamente utilizados, e os resultados mostraram que o SegVG supera vários algoritmos tradicionais! Especialmente nos conjuntos de dados RefCOCO+ e RefCOCOg, notoriamente "difíceis", o SegVG alcançou resultados inovadores!
Além da localização precisa, o SegVG também pode gerar uma pontuação de confiança da previsão do modelo. Em outras palavras, a IA indica a sua confiança na própria avaliação. Isso é crucial em aplicações práticas, como a identificação de imagens médicas por IA; se a confiança da IA for baixa, uma revisão humana é necessária para evitar diagnósticos errôneos.
A disponibilização do código-fonte do SegVG representa um grande avanço para toda a área da visão de IA! Acredita-se que cada vez mais desenvolvedores e pesquisadores se juntem ao SegVG, impulsionando conjuntamente o desenvolvimento da tecnologia de visão de IA.
Link do artigo: https://arxiv.org/pdf/2407.03200
Link do código: https://github.com/WeitaiKang/SegVG/tree/main