Les équipes de司南 OpenCompass du laboratoire d'intelligence artificielle de Shanghai et de魔搭 ModelScope ont récemment annoncé une mise à jour majeure de leur plateforme d'évaluation de grands modèles, Compass Arena, avec le lancement d'un nouveau module dédié aux grands modèles multimodaux : Compass Multi-Modal Arena. Ce nouveau module offre aux utilisateurs une plateforme pour tester et comparer les performances de plusieurs grands modèles multimodaux populaires, les aidant ainsi à trouver le modèle le mieux adapté à leurs besoins.
Le site web et la page ModelScope de Compass Multi-Modal Arena sont désormais accessibles au public. Ils proposent une interface simple et intuitive : les utilisateurs peuvent télécharger une image et saisir une question. Le système sélectionne ensuite deux grands modèles multimodaux anonymes pour générer des réponses en fonction de la question posée. Les utilisateurs évaluent subjectivement la qualité des réponses générées et choisissent le modèle qu'ils jugent le plus performant. Une fois l'évaluation terminée, les utilisateurs peuvent voir le nom de chaque modèle.
La plateforme intègre également une banque de questions thématiques, utile lorsque le téléchargement d'images n'est pas possible. Cette banque se concentre sur des tâches de questions-réponses visuelles subjectives, telles que la compréhension de mèmes, l'analyse d'œuvres d'art et la critique de photographies. Ce choix vise à évaluer les performances et l'expérience utilisateur des grands modèles multimodaux sur des tâches subjectives.
Site web de Compass Multi-Modal Arena :
https://opencompass.org.cn/arena?type=multimodal
Page ModelScope :
https://modelscope.cn/studios/opencompass/CompassArena
Page HuggingFace :
https://huggingface.co/spaces/opencompass/CompassArena
Lien vers le code source de l'outil d'évaluation multimodale OpenCompass :
https://github.com/open-compass/VLMEvalKit