Compass Arena，大型模型评估平台，新增多模态大型模型竞技板块

Les équipes de司南 OpenCompass du laboratoire d'intelligence artificielle de Shanghai et de魔搭 ModelScope ont récemment annoncé une mise à jour majeure de leur plateforme d'évaluation de grands modèles, Compass Arena, avec le lancement d'un nouveau module dédié aux grands modèles multimodaux : Compass Multi-Modal Arena. Ce nouveau module offre aux utilisateurs une plateforme pour tester et comparer les performances de plusieurs grands modèles multimodaux populaires, les aidant ainsi à trouver le modèle le mieux adapté à leurs besoins.

微信截图_20240813080725.png

Le site web et la page ModelScope de Compass Multi-Modal Arena sont désormais accessibles au public. Ils proposent une interface simple et intuitive : les utilisateurs peuvent télécharger une image et saisir une question. Le système sélectionne ensuite deux grands modèles multimodaux anonymes pour générer des réponses en fonction de la question posée. Les utilisateurs évaluent subjectivement la qualité des réponses générées et choisissent le modèle qu'ils jugent le plus performant. Une fois l'évaluation terminée, les utilisateurs peuvent voir le nom de chaque modèle.

微信截图_20240813080734.png

La plateforme intègre également une banque de questions thématiques, utile lorsque le téléchargement d'images n'est pas possible. Cette banque se concentre sur des tâches de questions-réponses visuelles subjectives, telles que la compréhension de mèmes, l'analyse d'œuvres d'art et la critique de photographies. Ce choix vise à évaluer les performances et l'expérience utilisateur des grands modèles multimodaux sur des tâches subjectives.

Site web de Compass Multi-Modal Arena :

https://opencompass.org.cn/arena?type=multimodal

Page ModelScope :

https://modelscope.cn/studios/opencompass/CompassArena

Page HuggingFace :

https://huggingface.co/spaces/opencompass/CompassArena

Lien vers le code source de l'outil d'évaluation multimodale OpenCompass :

https://github.com/open-compass/VLMEvalKit

Actualités IA

Compass Arena，大型模型评估平台，新增多模态大型模型竞技板块

AIbase基地