Récemment, l'organisation de recherche en intelligence artificielle Artificial Analysis a lancé une nouvelle initiative appelée "Artificial Analysis Text to Image Leaderboard & Arena" (classement et arène texte-image), visant à évaluer de manière exhaustive les performances de ces modèles.
Présentation de la plateforme d'évaluation
Depuis l'introduction des générateurs d'images basés sur la diffusion il y a deux ans, les modèles d'images IA ont atteint une qualité quasi photographique. Artificial Analysis Text to Image Leaderboard & Arena s'attache à comparer les modèles de génération d'images open source et propriétaires, en déterminant leur efficacité et leur précision en fonction des préférences humaines.
Le classement de la plateforme est basé sur plus de 45 000 préférences d'images humaines collectées via Artificial Analysis Image Arena, et mis à jour à l'aide d'un système de notation ELO. L'évaluation couvre plusieurs modèles d'images de pointe, notamment Midjourney, DALL·E d'OpenAI, Stable Diffusion et Playground AI.
Méthode d'évaluation
La plateforme utilise une méthode de crowdsourcing pour collecter des données massives sur les préférences humaines. Les participants voient une invite et deux images générées, puis choisissent l'image qui correspond le mieux à l'invite. Chaque modèle génère plus de 700 images couvrant différents styles et catégories, tels que les portraits, les groupes, les animaux, la nature et l'art. Les données de préférence collectées sont utilisées pour calculer le score ELO de chaque modèle, permettant ainsi un classement comparatif.
Premiers aperçus
Le classement montre que, bien que les modèles propriétaires soient en tête en termes de performances, les alternatives open source deviennent de plus en plus compétitives. Des modèles comme Midjourney, Stable Diffusion 3 et DALL·E 3HD se classent parmi les meilleurs, tandis que le modèle open source Playground AI v2.5 a également fait des progrès significatifs, surpassant DALL·E 3 d'OpenAI.
Il est à noter que le paysage des modèles de génération d'images évolue rapidement. Par exemple, DALL·E 2, qui était en tête l'année dernière, est maintenant sélectionné dans l'arène à moins de 25 %, et est tombé parmi les modèles les moins bien classés.
Participation du public
Artificial Analysis encourage le public à participer à cette évaluation. Les utilisateurs peuvent accéder au classement sur Hugging Face et participer au processus de classement via Image Arena. Après avoir effectué 30 choix d'images, les participants peuvent consulter leur classement personnalisé des modèles, afin d'obtenir des informations sur leurs préférences.
Cette initiative représente une étape importante pour comprendre et améliorer les modèles de génération d'images IA. En utilisant les préférences humaines et une méthode de crowdsourcing rigoureuse, la plateforme fournit des informations précieuses sur les performances comparatives des principaux modèles d'images. Avec l'évolution constante de ce domaine, de telles plateformes joueront un rôle clé pour guider le développement et l'innovation futurs de la génération d'images pilotée par l'IA.
Lien vers le classement : https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard