AlignBench: 中国語大規模言語モデルのための評価基準

智譜 AIは、中国語大規模言語モデル(LLM)専用の評価基準AlignBenchを発表しました。これは中国語大規模モデル向けの初の評価基準であり、多角的な視点からモデルと人間の意図の一致度を精密に評価できます。

AlignBenchのデータセットは、実際の使用事例に基づいており、初期構築、機密性スクリーニング、模範解答の作成、難易度選別などの手順を経て、現実性と挑戦性を確保しています。データセットは、知識質問応答、文章生成、ロールプレイングなど、8つの主要なカテゴリに分類された多様な問題で構成されています。

自動化と再現性を確保するため、AlignBenchはGPT-4やCritiqueLLMなどの採点モデルを用いて、各モデルの回答にスコアを付け、回答の質を表しています。採点モデルは、多角的で、ルールに基づいて調整された採点方法を採用しており、モデルによる採点と人間の採点の一致性を向上させ、詳細な評価分析と評価スコアを提供します。

開発者はAlignBenchを使ってモデルを評価し、GPT-4やCritiqueLLMなどの高性能な採点モデルでスコアを付けることができます。AlignBenchウェブサイトを通じて結果を提出すると、CritiqueLLMを採点モデルとして使用して評価が行われ、約5分で評価結果を得ることができます。