上海人工智能实验室司南 OpenCompass 团队与魔搭 ModelScope 最近宣布,他们的大模型评测平台 Compass Arena 进行了重要更新,推出了全新的多模态大模型竞技版块 Compass Multi-Modal Arena。这一新版块为用户提供了一个平台,可以体验和比较多款主流多模态大模型的效果,帮助用户找到最适合自己需求的模型。

微信截图_20240813080725.png

Compass Multi-Modal Arena 的官网和 ModelScope 页面已向公众开放,提供了一个简单易用的界面,用户可以上传图像并输入问题,系统会安排两个匿名的多模态大模型根据输入内容生成答案。用户基于生成内容的质量进行主观评估,选择他们认为表现更出色的模型。评估完成后,用户可以看到每个模型的名称。

微信截图_20240813080734.png

平台还内置了特色题库,方便用户在不便上传图像时使用,题库侧重于主观视觉问答任务,如迷因理解、艺术品赏析和摄影作品赏析等类型。这一设计旨在评估多模态大模型在主观任务上的性能和用户体验。

Compass Multi-Modal Arena 官网

https://opencompass.org.cn/arena?type=multimodal

ModelScope 页面:

https://modelscope.cn/studios/opencompass/CompassArena

HuggingFace 页面

https://huggingface.co/spaces/opencompass/CompassArena

OpenCompass 多模态评测工具开源链接:

https://github.com/open-compass/VLMEvalKit