La plateforme d'évaluation de grands modèles CompassArena (l'arène des grands modèles), lancée conjointement par l'équipe OpenCompass du laboratoire d'intelligence artificielle de Shanghai et ModelScope, a récemment bénéficié d'une mise à jour majeure. Elle vise à offrir aux utilisateurs une expérience d'évaluation de modèles plus scientifique et complète. Depuis son lancement, la plateforme a attiré de nombreux utilisateurs de la communauté qui ont contribué des données. Grâce à ces données, CompassArena a été constamment optimisé. Cette mise à jour comprend une nouvelle fonctionnalité, Judge Copilot, une amélioration de l'algorithme de classement, et l'ajout de plus de 20 nouveaux modèles.

La fonctionnalité Judge Copilot utilise le puissant modèle d'évaluation Compass-Judger-1-32B-Instruct pour fournir aux utilisateurs une capacité d'analyse comparative complète des performances des modèles de dialogue. De l'évaluation multidimensionnelle à la comparaison en temps réel et à l'aide à la prise de décision intelligente, elle rend l'évaluation subjective plus précise et efficace. De plus, l'algorithme de classement a été entièrement mis à jour. L'algorithme de Bradley-Terry a été amélioré en introduisant des variables de contrôle pour réduire l'influence des facteurs de confusion, rendant ainsi le classement des modèles plus scientifique et précis. Les nouveaux modèles incluent des modèles commerciaux et open source nationaux et internationaux, enrichissant ainsi l'expérience de confrontation.

微信截图_20241219174613.png

CompassArena accorde une grande importance aux performances du modèle Judge dans les applications réelles et recueille activement les commentaires des utilisateurs pour améliorer davantage les capacités globales et l'alignement du modèle Judge. Les utilisateurs peuvent exprimer leur évaluation du modèle Judge en cliquant sur les boutons « J'aime » et « Je n'aime pas ». En ajustant un modèle statistique de Bradley-Terry incluant des variables de contrôle, CompassArena peut estimer le degré d'influence de nombreux facteurs externes, exprimé sous forme de rapport de chances.

Cette mise à jour voit l'arrivée de modèles commerciaux nationaux tels que 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828, ainsi que des modèles commerciaux internationaux comme claude-3.5-sonnet-20241022, gemini-exp-1121 et une série de modèles open source. Les institutions à l'origine de ces nouveaux modèles incluent 360, DeepSeek, Doubao, etc., offrant aux utilisateurs un choix plus large pour les confrontations.

Adresse d'accès : https://www.modelscope.cn/studios/opencompass/CompassArena