L'IA générative connaît un développement fulgurant, mais son évaluation complète reste un défi. De nouveaux modèles apparaissent constamment, avec des résultats toujours plus impressionnants. Cependant, se pose la question de l'évaluation de ces modèles texte-image.
Les méthodes d'évaluation traditionnelles reposent soit sur l'appréciation visuelle subjective, soit sur des indicateurs simples comme le CLIPScore. Ces derniers ne parviennent souvent pas à capturer les détails complexes des invites textuelles, tels que les relations entre les objets ou le raisonnement logique. Il en résulte des évaluations inexactes, voire des situations cocasses où une image générée complètement incohérente obtient un score élevé.
Pour résoudre ce problème, des chercheurs de l'Université Carnegie Mellon et de Meta ont récemment collaboré pour proposer une nouvelle méthode d'évaluation des modèles texte-image : VQAScore. L'idée principale est d'utiliser un modèle de Question-Réponse Visuelle (VQA) pour noter les modèles texte-image.
Concrètement, VQAScore transforme l'invite textuelle en une question simple, par exemple : « Y a-t-il un chat qui poursuit une souris sur cette image ? ». L'image générée et la question sont ensuite soumises au modèle VQA. Ce dernier détermine si la réponse est « oui » ou « non » en fonction du contenu de l'image. VQAScore attribue alors un score au modèle texte-image en fonction de la probabilité que le modèle VQA réponde « oui ».
Cette méthode, apparemment simple, s'avère étonnamment efficace. Les chercheurs ont testé VQAScore sur huit benchmarks d'évaluation différents, démontrant une précision et une fiabilité supérieures aux méthodes traditionnelles, rivalisant même avec des solutions utilisant des modèles de grande taille comme GPT-4V.
Plus impressionnant encore, VQAScore peut évaluer non seulement les modèles texte-image, mais aussi les modèles texte-vidéo et texte-3D. Cela est dû au fait que VQAScore repose sur un modèle VQA, capable de traiter divers types de contenu visuel.
Pour stimuler davantage les progrès dans le domaine des modèles texte-image, les chercheurs ont créé un nouveau benchmark : GenAI-Bench. Ce dernier comprend 1600 invites textuelles complexes couvrant diverses capacités de raisonnement visuel et linguistique, telles que la comparaison, le comptage et le raisonnement logique. Plus de 15 000 annotations manuelles ont été collectées pour évaluer les performances des différents modèles.
En résumé, VQAScore et GenAI-Bench apportent une nouvelle dynamique au domaine des modèles texte-image. VQAScore offre une méthode d'évaluation plus précise et fiable, permettant aux chercheurs d'évaluer plus efficacement les forces et faiblesses des différents modèles. GenAI-Bench fournit un benchmark plus complet et stimulant, encourageant le développement de modèles texte-image plus intelligents et plus intuitifs.
VQAScore présente cependant certaines limites. Il repose actuellement sur des modèles VQA open source, moins performants que des modèles propriétaires comme GPT-4V. À l'avenir, l'amélioration des modèles VQA devrait accroître les performances de VQAScore.
Adresse du projet : https://linzhiqiu.github.io/papers/vqascore/