大規模言語モデル評価プラットフォームCompassArenaがアップグレード、新しいJudge Copilot機能が登場

AIbase基地

公開日AIニュース · 1 分で読めます · Dec 19, 2024

230

上海の人工知能研究所司南OpenCompassチームと魔搭ModelScopeが共同で発表した大規模言語モデル評価プラットフォームCompassArena（大規模モデル競技場）が先日、アップグレードされました。ユーザーにより科学的で包括的なモデル評価体験を提供することを目指しています。公開以来、多くのコミュニティユーザーが参加し、データを提供してくれました。これらのデータに基づき、CompassArenaは継続的に最適化されており、今回のアップグレードには、新しいJudge Copilot機能とランキングアルゴリズムの改善、そして20以上の新しいモデルの追加が含まれています。

Judge Copilot機能は、強力な評価モデルCompass-Judger-1-32B-Instructを活用し、ユーザーに会話モデルのパフォーマンスを多角的に比較分析する能力を提供します。多次元評価、リアルタイム比較から、スマートな意思決定支援まで、主観的な評価をより正確かつ効率的にします。さらに、ランキングアルゴリズムも新しくなり、元のBradley-Terry統計算法を改良し、制御変数を導入することで混同行の影響を軽減し、モデルのランキングをより科学的で正確なものにしました。新しく追加されたモデルには、国内外の商用モデルとオープンソースモデルが含まれており、対戦体験を豊かにしています。

微信截图_20241219174613.png

CompassArenaは、Judgeモデルの実運用におけるパフォーマンスを重視しており、ユーザーからのフィードバックを積極的に収集して、Judgeモデルの総合的な能力と整合性をさらに向上させています。「いいね」と「だめ」ボタンをクリックすることで、ユーザーはJudgeモデルに対する評価を表明できます。制御変数を含むBradley-Terry統計モデルを当てはめることで、CompassArenaは多くの外部要因の影響度を推定でき、その影響度はオッズ比で表現できます。

今回のアップグレードで、CompassArenaには、360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828などの国内商用モデル、claude-3.5-sonnet-20241022、gemini-exp-1121などの国外商用モデル、そして一連のオープンソースモデルが追加されました。新しく追加されたモデルは、360、DeepSeek、豆包などの機関が提供しており、ユーザーにより豊富な対戦選択肢を提供します。

体験アドレス：https://www.modelscope.cn/studios/opencompass/CompassArena

ハードウェア開発せず！Anthropic CPO、企業向け汎用基盤モデル開発に注力と発表

先日開催されたHuman[X]カンファレンスにおいて、AIスタートアップAnthropicの最高製品責任者マイク・クリーガー(Mike Krieger)氏は、同社がハードウェアやコンシューマーエンターテイメント分野に進出する計画はないと明かし、企業向けの汎用基盤モデル開発に注力していくと発表しました。Claude AIの開発者であるAnthropicは、アマゾンとグーグルから支援を受けており、様々な業界に実用的なAIソリューションを提供することを目指しています。クリーガー氏によると、Ant…

マイクロソフト、南アフリカに人工知能インフラ構築のため2億9800万ドル投資

テクノロジー大手マイクロソフトは先日、人工知能とデータセンターのインフラ整備のために南アフリカに2億9800万ドルを投資すると発表しました。この取り組みは、南アフリカのデジタル経済発展を促進し、地元企業や個人により良い技術サポートとサービスを提供することを目的としています。世界的な人工知能需要の高まりを受け、マイクロソフトの投資は南アフリカのこの分野における競争力強化に貢献するでしょう。マイクロソフトの投資計画には、資金投入だけでなく、技術導入と人材育成も含まれています。地元企業や教育機関との連携を通じて、マイクロソフトは南アフリカで…

報道：アリババ、2025年末までに全販売業者へのAIツール導入目指す

サウスチャイナ・モーニング・ポストの報道によると、アリババ国際卸売市場の社長である張闊氏は最近のインタビューで、アリババが人工知能（AI）技術の導入を推進しており、2025年末までに全販売業者へのAIツール導入を目指していると述べました。現在、約20万人の販売業者のうち、半数以上がアリババが提供するAIアプリケーションを毎週利用しています。これらのAIツールは2024年初頭に導入され、販売業者のマーケティング、製品管理、顧客とのやり取り、リスク管理を支援することを目的としています。これらの施策はアリババ...