Vocês já devem ter ouvido falar sobre os Modelos de Linguagem Visual (VLMs), esses pequenos gênios da IA que não apenas entendem texto, mas também “veem” imagens. Mas a verdade é um pouco diferente. Hoje, vamos dar uma olhada mais de perto em suas limitações e ver se eles realmente “veem” imagens como nós, humanos.
Primeiro, vamos explicar o que são VLMs. Simplificando, são modelos de linguagem grandes, como o GPT-4o e o Gemini-1.5Pro, que se destacam no processamento de imagens e texto, obtendo pontuações altas em muitos testes de compreensão visual. Mas não se deixe enganar por essas altas pontuações; hoje vamos ver se eles são realmente tão poderosos.
Pesquisadores criaram um teste chamado BlindTest, com sete tarefas extremamente simples para humanos. Por exemplo, determinar se dois círculos se sobrepõem, se duas linhas se cruzam ou contar quantos círculos há no logotipo das Olimpíadas. Parece fácil, certo? Até uma criança do jardim de infância conseguiria! Mas os VLMs não se saíram tão bem assim.
Os resultados foram surpreendentes: a precisão média desses modelos avançados no BlindTest foi de apenas 56,20%, com o melhor deles, o Sonnet-3.5, alcançando apenas 73,77% de precisão. É como se um aluno que supostamente consegue entrar em uma universidade de elite não conseguisse resolver problemas de matemática do ensino fundamental.
Por que isso acontece? Os pesquisadores analisaram que os VLMs, ao processar imagens, podem ser como alguém com miopia, sem enxergar os detalhes. Eles conseguem perceber a tendência geral da imagem, mas quando se trata de informações espaciais precisas, como se duas formas se cruzam ou se sobrepõem, eles ficam confusos.
Por exemplo, os pesquisadores pediram aos VLMs para determinar se dois círculos se sobrepunham. Mesmo sendo círculos grandes, como melancias, os modelos não conseguiram responder com 100% de precisão. Da mesma forma, sua performance ao contar os círculos do logotipo olímpico deixou muito a desejar.
O que é ainda mais interessante é que os pesquisadores descobriram que esses VLMs parecem ter uma preferência especial pelo número 5 ao contar. Quando o número de círculos no logotipo olímpico ultrapassa 5, eles tendem a responder "5", provavelmente porque estão familiarizados com os 5 círculos do logotipo.
Bem, depois de tudo isso, vocês têm uma nova perspectiva sobre esses VLMs aparentemente sofisticados? Na verdade, eles ainda têm muitas limitações na compreensão visual e estão longe de atingir o nível de compreensão humana. Portanto, da próxima vez que alguém disser que a IA pode substituir completamente os humanos, você pode simplesmente rir.
Endereço do artigo:https://arxiv.org/pdf/2407.06581
Página do projeto:https://vlmsareblind.github.io/