最近、智譜 AI は、テキスト生成モデルのパフォーマンスを評価するための、高品質で低コストな評価モデルである CritiqueLLM を発表しました。
従来の評価指標である BLEU や ROUGE は、主に n-gram の一致度に基づいてスコアを計算するため、全体的な意味を捉えることができません。一方、モデルベースの評価方法は、基盤モデルの選択に大きく依存し、最先端の大規模モデルのみが満足のいく結果を得ることができます。
これらの問題を解決するために、CritiqueLLM は解釈可能で拡張可能なテキスト品質評価モデルを提案しています。これは、様々なタスクに対して高品質なスコアと評価の説明を生成することができます。
参照テキストのあるシナリオでは、CritiqueLLM は大規模モデルによって生成されたテキストと参照テキストを比較し、スコアを付与します。8つの一般的なタスクにおいて、CritiqueLLM の評価スコアと人間の評価スコアの相関係数は、他のモデルを大幅に上回りました。特に、参照テキストがない設定では、CritiqueLLM は3つのタスクで GPT-4 を上回り、最適な評価性能を達成しました。
CritiqueLLM の手法は、主に4つのステップで構成されています:ユーザー質問の拡張、参照テキストを含む評価データの収集、参照テキストを含まない評価データの書き換え、そして CritiqueLLM モデルのトレーニングです。
これらのステップを通して、参照テキストを含む場合と含まない場合の2種類の CritiqueLLM モデルが得られ、テキスト生成モデルのパフォーマンスを評価するために使用されます。