A equipe do OpenCompass do laboratório de inteligência artificial de Xangai e o ModelScope anunciaram recentemente uma atualização importante para sua plataforma de avaliação de modelos de linguagem grandes, o Compass Arena: a introdução do novo bloco de competição de modelos multimodais, o Compass Multi-Modal Arena. Este novo bloco oferece aos usuários uma plataforma para experimentar e comparar o desempenho de vários modelos multimodais principais, ajudando-os a encontrar o modelo mais adequado às suas necessidades.
O site e a página do ModelScope do Compass Multi-Modal Arena já estão abertos ao público, oferecendo uma interface simples e fácil de usar. Os usuários podem carregar imagens e inserir perguntas, e o sistema atribuirá dois modelos multimodais anônimos para gerar respostas com base na entrada. Os usuários avaliam subjetivamente a qualidade do conteúdo gerado e escolhem o modelo que consideram ter um desempenho superior. Após a avaliação, os usuários podem ver o nome de cada modelo.
A plataforma também possui um banco de dados de perguntas com temas específicos, facilitando o uso quando o upload de imagens não for conveniente. O banco de dados concentra-se em tarefas de perguntas e respostas visuais subjetivas, como compreensão de memes, apreciação de arte e apreciação de fotografia. Este design visa avaliar o desempenho e a experiência do usuário dos modelos multimodais em tarefas subjetivas.
Site do Compass Multi-Modal Arena:
https://opencompass.org.cn/arena?type=multimodal
Página do ModelScope:
https://modelscope.cn/studios/opencompass/CompassArena
Página do HuggingFace:
https://huggingface.co/spaces/opencompass/CompassArena
Link para o código aberto da ferramenta de avaliação multimodal OpenCompass:
https://github.com/open-compass/VLMEvalKit