随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。
随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。