Recientemente, la organización de investigación de inteligencia artificial Artificial Analysis lanzó una nueva iniciativa llamada "Artificial Analysis Text to Image Leaderboard & Arena" (Tabla de clasificación y arena de texto a imagen), destinada a evaluar exhaustivamente el rendimiento de estos modelos.

Resumen de la plataforma de evaluación

Desde la introducción de los generadores de imágenes basados en difusión hace dos años, los modelos de imágenes de IA han alcanzado una calidad casi fotográfica. Artificial Analysis Text to Image Leaderboard & Arena se dedica a comparar modelos de generación de imágenes de código abierto y propietarios, determinando su eficacia y precisión según las preferencias humanas.

La clasificación de la plataforma se basa en más de 45.000 preferencias de imágenes humanas recopiladas a través de Artificial Analysis Image Arena, actualizadas utilizando un sistema de puntuación ELO. La evaluación abarca varios modelos de imágenes líderes, incluyendo Midjourney, DALL·E de OpenAI, Stable Diffusion y Playground AI, entre otros.

image.png

Método de evaluación

La plataforma utiliza una metodología de crowdsourcing para recopilar datos a gran escala sobre las preferencias humanas. Los participantes ven una frase de solicitud y dos imágenes generadas, y luego seleccionan la que mejor se ajusta a la frase. Cada modelo genera más de 700 imágenes que abarcan diferentes estilos y categorías, como retratos, grupos, animales, naturaleza y arte. Los datos de preferencias recopilados se utilizan para calcular la puntuación ELO de cada modelo, creando así una clasificación comparativa.

Observaciones preliminares

La clasificación muestra que, aunque los modelos propietarios lideran en rendimiento, las alternativas de código abierto se están volviendo cada vez más competitivas. Modelos como Midjourney, Stable Diffusion 3 y DALL·E 3HD ocupan los primeros puestos, mientras que el modelo de código abierto Playground AI v2.5 también ha logrado un progreso significativo, superando a DALL·E 3 de OpenAI.

Cabe destacar que el panorama de los modelos de generación de imágenes está cambiando rápidamente. Por ejemplo, DALL·E 2, que el año pasado ocupaba una posición de liderazgo, ahora tiene una tasa de selección inferior al 25% en la arena, cayendo entre los modelos con menor clasificación.

Participación pública

Artificial Analysis anima a la participación pública en esta evaluación. Los usuarios pueden acceder a la clasificación en Hugging Face y participar en el proceso de clasificación a través de Image Arena. Después de completar 30 selecciones de imágenes, los participantes pueden ver su clasificación de modelos personalizada, obteniendo así información sobre sus preferencias.

Esta iniciativa representa un paso importante para comprender y mejorar los modelos de generación de imágenes de IA. Al utilizar las preferencias humanas y un riguroso método de crowdsourcing, la plataforma ofrece información valiosa sobre el rendimiento comparativo de los modelos de imágenes líderes. A medida que el campo continúa desarrollándose, estas plataformas desempeñarán un papel clave en la orientación del futuro desarrollo e innovación de la generación de imágenes impulsada por IA.

Enlace a la clasificación: https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard