上海の人工知能研究所司南OpenCompassチームと魔搭ModelScopeが共同で発表した大規模言語モデル評価プラットフォームCompassArena(大規模モデル競技場)が先日、アップグレードされました。ユーザーにより科学的で包括的なモデル評価体験を提供することを目指しています。公開以来、多くのコミュニティユーザーが参加し、データを提供してくれました。これらのデータに基づき、CompassArenaは継続的に最適化されており、今回のアップグレードには、新しいJudge Copilot機能とランキングアルゴリズムの改善、そして20以上の新しいモデルの追加が含まれています。

Judge Copilot機能は、強力な評価モデルCompass-Judger-1-32B-Instructを活用し、ユーザーに会話モデルのパフォーマンスを多角的に比較分析する能力を提供します。多次元評価、リアルタイム比較から、スマートな意思決定支援まで、主観的な評価をより正確かつ効率的にします。さらに、ランキングアルゴリズムも新しくなり、元のBradley-Terry統計算法を改良し、制御変数を導入することで混同行の影響を軽減し、モデルのランキングをより科学的で正確なものにしました。新しく追加されたモデルには、国内外の商用モデルとオープンソースモデルが含まれており、対戦体験を豊かにしています。

微信截图_20241219174613.png

CompassArenaは、Judgeモデルの実運用におけるパフォーマンスを重視しており、ユーザーからのフィードバックを積極的に収集して、Judgeモデルの総合的な能力と整合性をさらに向上させています。「いいね」と「だめ」ボタンをクリックすることで、ユーザーはJudgeモデルに対する評価を表明できます。制御変数を含むBradley-Terry統計モデルを当てはめることで、CompassArenaは多くの外部要因の影響度を推定でき、その影響度はオッズ比で表現できます。

今回のアップグレードで、CompassArenaには、360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828などの国内商用モデル、claude-3.5-sonnet-20241022、gemini-exp-1121などの国外商用モデル、そして一連のオープンソースモデルが追加されました。新しく追加されたモデルは、360、DeepSeek、豆包などの機関が提供しており、ユーザーにより豊富な対戦選択肢を提供します。

体験アドレス:https://www.modelscope.cn/studios/opencompass/CompassArena