2025-01-10 15:49:29.AIbase.
智譜GLM-4-9Bモデル、幻覚率わずか1.3%で世界の大規模言語モデル評価で首位獲得
2024-12-19 17:47:00.AIbase.
大規模言語モデル評価プラットフォームCompassArenaがアップグレード、新しいJudge Copilot機能が登場
2024-12-05 14:45:53.AIbase.
バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化
2024-09-29 15:33:05.AIbase.
Salesforce AI、Llama3ベースの新しい大規模言語モデル評価ファミリーSFR-Judgeを発表
2024-08-13 08:11:01.AIbase.
大規模言語モデル評価プラットフォームCompass Arenaにマルチモーダル大規模言語モデル競技セクション追加
2023-11-13 08:59:01.AIbase.
智源研究院、JudgeLM 裁判モデルをオープンソース化:様々な大規模言語モデルを評価しスコアを出力
2023-11-02 15:21:41.AIbase.
アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表
2023-09-25 09:54:21.AIbase.
大規模言語モデル評価の混沌:パラメータ規模は万能ではない
2023-08-29 10:09:08.AIbase.