北京智源人工智能研究院は、様々な大規模言語モデルを効率的かつ正確に評価できる「JudgeLM」という評価モデルをオープンソース化しました。
GPT-4と比較して、JudgeLMはコストを1/120に抑えながら、90%以上の評価結果の一致率を実現しています。
JudgeLMは、純粋なテキストデータやマルチモーダルデータなど、様々な評価シナリオに適用でき、スコア、判定、根拠の説明を出力できます。
革新的な手法により、JudgeLMは正解との一致率が90%を超え、人間の評価に匹敵する精度を達成しています。
智源研究院は、大規模言語モデルの評価に関する更なる研究を促進するため、トレーニングデータと検証データを含むデータセットも公開しました。
今後、JudgeLMチームは、より正確で効率的で、より多くのシナリオに対応できる大規模言語モデル評価モデルを目指し、更なる改良を進めていきます。