La IA generativa está avanzando rápidamente, pero evaluar completamente su rendimiento sigue siendo un desafío. Aparecen constantemente nuevos modelos, con resultados cada vez más impresionantes. Sin embargo, surge la pregunta: ¿cómo evaluar la eficacia de estos modelos de texto a imagen?

Los métodos de evaluación tradicionales, o bien se basan en la observación humana, lo que introduce una alta subjetividad, o bien utilizan indicadores simples como CLIPScore, que a menudo no captan los detalles de las indicaciones de texto complejas, como las relaciones entre objetos o el razonamiento lógico. Esto lleva a resultados de evaluación inexactos, incluso a situaciones divertidas donde una imagen generada no tiene sentido, pero aún así obtiene una puntuación alta.

image.png

Para solucionar este problema, investigadores de la Universidad Carnegie Mellon y Meta han presentado recientemente una nueva solución de evaluación de modelos de texto a imagen: VQAScore. La idea central es utilizar un modelo de preguntas y respuestas visuales (VQA) para puntuar los modelos de texto a imagen.

image.png

En concreto, VQAScore convierte primero la indicación de texto en una pregunta sencilla, como "¿Hay un gato persiguiendo a un ratón en esta imagen?", y luego envía la imagen generada y la pregunta a un modelo VQA. El modelo VQA determina si la respuesta es "sí" o "no" según el contenido de la imagen, y VQAScore utiliza la probabilidad de que el modelo VQA responda "sí" para puntuar el modelo de texto a imagen.

image.png

Este método, aunque aparentemente simple, ofrece resultados sorprendentemente buenos. Los investigadores probaron VQAScore en ocho conjuntos de datos de evaluación de modelos de texto a imagen diferentes, y descubrieron que su precisión y fiabilidad superan con creces a los métodos tradicionales, incluso comparándose favorablemente con soluciones que utilizan modelos de gran tamaño como GPT-4V.

Más aún, VQAScore no solo evalúa modelos de texto a imagen, sino también modelos de texto a vídeo y de texto a modelos 3D. Esto se debe a que el núcleo de VQAScore es un modelo VQA, que puede procesar diversos tipos de contenido visual.

image.png

Para impulsar aún más el progreso en el campo de la generación de imágenes a partir de texto, los investigadores también han creado un nuevo conjunto de datos de evaluación: GenAI-Bench. Este conjunto de datos incluye 1600 indicaciones de texto complejas que abarcan diversas capacidades de razonamiento visual-lingüístico, como la comparación, el conteo y el razonamiento lógico. También se han recopilado más de 15.000 anotaciones manuales para evaluar el rendimiento de diferentes modelos de texto a imagen.

En resumen, la aparición de VQAScore y GenAI-Bench ha aportado nueva vitalidad al campo de la generación de imágenes a partir de texto. VQAScore ofrece un método de evaluación más preciso y fiable que ayuda a los investigadores a evaluar mejor las ventajas y desventajas de los diferentes modelos. GenAI-Bench proporciona un conjunto de datos de evaluación más completo y desafiante que impulsa el desarrollo de modelos de texto a imagen más inteligentes y humanos.

Por supuesto, VQAScore también tiene algunas limitaciones. Actualmente, depende principalmente de modelos VQA de código abierto, cuyo rendimiento es inferior al de modelos cerrados como GPT-4V. En el futuro, a medida que los modelos VQA sigan mejorando, también lo hará el rendimiento de VQAScore.

Dirección del proyecto: https://linzhiqiu.github.io/papers/vqascore/