P-MMEval
多语言多任务基准测试,用于评估大型语言模型(LLMs)
普通产品其他多语言基准测试
P-MMEval是一个多语言基准测试,覆盖了基础和能力专业化的数据集。它扩展了现有的基准测试,确保所有数据集在语言覆盖上保持一致,并在多种语言之间提供平行样本,支持多达10种语言,涵盖8个语言家族。P-MMEval有助于全面评估多语言能力,并进行跨语言可转移性的比较分析。
P-MMEval 最新流量情况
月总访问量
1141359
跳出率
43.84%
平均页面访问数
4.3
平均访问时长
00:03:56