A plataforma de avaliação de modelos de linguagem CompassArena (竞技场 de modelos de linguagem), lançada em conjunto pela equipe司南OpenCompass do Laboratório de Inteligência Artificial de Xangai e o魔搭ModelScope, recebeu recentemente uma atualização significativa, visando oferecer aos usuários uma experiência de avaliação de modelos mais científica e abrangente. Desde seu lançamento, a plataforma atraiu uma grande quantidade de usuários da comunidade que contribuíram com dados. Com base nesses dados, a CompassArena passou por otimizações contínuas. Esta atualização inclui o novo recurso Judge Copilot, melhorias no algoritmo de classificação e a adição de mais de 20 novos modelos.

O recurso Judge Copilot utiliza o poderoso modelo de avaliação Compass-Judger-1-32B-Instruct para fornecer aos usuários a capacidade de analisar de forma abrangente o desempenho dos modelos de diálogo, abrangendo desde avaliações multidimensionais e comparações em tempo real até assistência na tomada de decisões inteligentes. Isso torna as avaliações subjetivas mais precisas e eficientes. Além disso, o algoritmo de classificação foi totalmente atualizado, aprimorando o algoritmo estatístico Bradley-Terry original e introduzindo variáveis de controle para reduzir o impacto de fatores de confusão, resultando em uma classificação de modelos mais científica e precisa. Os novos modelos incluem modelos comerciais e de código aberto nacionais e internacionais, enriquecendo a experiência de comparação.

微信截图_20241219174613.png

A CompassArena dá grande importância ao desempenho do modelo Judge em aplicações reais e coleta ativamente o feedback dos usuários para melhorar ainda mais suas capacidades abrangentes e alinhamento. Os usuários podem expressar suas avaliações sobre o modelo Judge clicando nos botões "curtir" e "descurtir". Ao ajustar um modelo estatístico Bradley-Terry que inclui variáveis de controle, a CompassArena consegue estimar a influência de vários fatores externos, e a intensidade dessa influência pode ser expressa na forma de razão de chances.

Nesta atualização, a CompassArena recebeu a adição de modelos comerciais nacionais como 360gpt2-pro, deep-seek-v2.5-chat e doubao-pro-32k-240828, bem como modelos comerciais internacionais como claude-3.5-sonnet-20241022 e gemini-exp-1121, além de uma série de modelos de código aberto. As instituições por trás dos novos modelos incluem 360, DeepSeek, 豆包, etc., oferecendo aos usuários uma gama mais ampla de opções de comparação.

Endereço para acesso:https://www.modelscope.cn/studios/opencompass/CompassArena