ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。