A equipe do OpenCompass do laboratório de inteligência artificial de Xangai e o ModelScope anunciaram recentemente uma atualização importante para sua plataforma de avaliação de modelos de linguagem grandes, o Compass Arena: a introdução do novo bloco de competição de modelos multimodais, o Compass Multi-Modal Arena. Este novo bloco oferece aos usuários uma plataforma para experimentar e comparar o desempenho de vários modelos multimodais principais, ajudando-os a encontrar o modelo mais adequado às suas necessidades.

微信截图_20240813080725.png

O site e a página do ModelScope do Compass Multi-Modal Arena já estão abertos ao público, oferecendo uma interface simples e fácil de usar. Os usuários podem carregar imagens e inserir perguntas, e o sistema atribuirá dois modelos multimodais anônimos para gerar respostas com base na entrada. Os usuários avaliam subjetivamente a qualidade do conteúdo gerado e escolhem o modelo que consideram ter um desempenho superior. Após a avaliação, os usuários podem ver o nome de cada modelo.

微信截图_20240813080734.png

A plataforma também possui um banco de dados de perguntas com temas específicos, facilitando o uso quando o upload de imagens não for conveniente. O banco de dados concentra-se em tarefas de perguntas e respostas visuais subjetivas, como compreensão de memes, apreciação de arte e apreciação de fotografia. Este design visa avaliar o desempenho e a experiência do usuário dos modelos multimodais em tarefas subjetivas.

Site do Compass Multi-Modal Arena:

https://opencompass.org.cn/arena?type=multimodal

Página do ModelScope:

https://modelscope.cn/studios/opencompass/CompassArena

Página do HuggingFace:

https://huggingface.co/spaces/opencompass/CompassArena

Link para o código aberto da ferramenta de avaliação multimodal OpenCompass:

https://github.com/open-compass/VLMEvalKit