A IA generativa está se desenvolvendo rapidamente, mas avaliar completamente seu desempenho continua sendo um desafio. Modelos diversos surgem constantemente, com resultados cada vez mais impressionantes. No entanto, surge a questão: como avaliar a eficácia desses modelos de imagem a partir de texto?
Os métodos tradicionais de avaliação, ou dependem da avaliação visual humana, sendo muito subjetivos, ou utilizam indicadores simples, como o CLIPScore. No entanto, esses indicadores geralmente não conseguem captar detalhes complexos em prompts de texto, como relações entre objetos e raciocínio lógico. Isso leva a resultados imprecisos na avaliação de modelos de imagem a partir de texto, podendo até mesmo gerar situações engraçadas, onde imagens geradas totalmente fora do contexto recebem pontuações altas.
Para resolver esse problema, pesquisadores da Universidade Carnegie Mellon e do Meta lançaram recentemente uma nova solução de avaliação de imagem a partir de texto: o VQAScore. A ideia central é usar modelos de perguntas e respostas visuais (VQA) para avaliar modelos de geração de imagens.
Especificamente, o VQAScore primeiro converte o prompt de texto em uma pergunta simples, como "Há um gato perseguindo um rato nesta imagem?", e então envia a imagem gerada e a pergunta para um modelo VQA. O modelo VQA determina se a resposta é "sim" ou "não" com base no conteúdo da imagem, e o VQAScore usa a probabilidade do modelo VQA responder "sim" para avaliar o modelo de geração de imagens.
Este método parece simples, mas seus resultados são surpreendentemente bons. Os pesquisadores testaram o VQAScore em oito benchmarks diferentes de avaliação de imagem a partir de texto, e descobriram que sua precisão e confiabilidade superam os métodos tradicionais, podendo até se comparar a soluções que usam modelos gigantes como o GPT-4V.
Ainda mais impressionante, o VQAScore pode ser usado não apenas para avaliar imagens a partir de texto, mas também vídeos e modelos 3D gerados a partir de texto. Isso ocorre porque o núcleo do VQAScore é o modelo VQA, que pode processar diversos tipos de conteúdo visual.
Para impulsionar ainda mais o progresso no campo da geração de imagens a partir de texto, os pesquisadores também criaram um novo benchmark de avaliação – o GenAI-Bench. Este benchmark contém 1600 prompts de texto complexos, abrangendo diversas habilidades de raciocínio visual e linguístico, como comparação, contagem e raciocínio lógico. Os pesquisadores também coletaram mais de 15.000 anotações manuais para avaliar o desempenho de diferentes modelos de geração de imagens.
Em resumo, o VQAScore e o GenAI-Bench trouxeram nova vitalidade ao campo da geração de imagens a partir de texto. O VQAScore fornece um método de avaliação mais preciso e confiável, ajudando os pesquisadores a avaliar melhor os pontos fortes e fracos de diferentes modelos. O GenAI-Bench, por sua vez, oferece um benchmark de avaliação mais abrangente e desafiador, impulsionando o desenvolvimento de modelos de geração de imagens mais inteligentes e humanos.
Claro, o VQAScore também tem algumas limitações. Atualmente, o VQAScore depende principalmente de modelos VQA de código aberto, cujo desempenho é inferior ao de modelos fechados como o GPT-4V. No futuro, com o avanço contínuo dos modelos VQA, o desempenho do VQAScore também será aprimorado.
Endereço do projeto: https://linzhiqiu.github.io/papers/vqascore/