Con la creciente popularidad de ChatGPT, se han lanzado varias listas de clasificación de modelos de lenguaje grandes, tanto nacionales como internacionales. Sin embargo, existe una gran disparidad en el ranking de modelos con parámetros similares en diferentes listas. Tanto la industria como el mundo académico consideran que esto se debe principalmente a las diferencias en los conjuntos de evaluación, y también a la creciente proporción de preguntas subjetivas, lo que genera dudas sobre la imparcialidad de la evaluación. Por lo tanto, instituciones de evaluación independientes como OpenCompass y FlagEval están recibiendo cada vez más atención. Sin embargo, la industria opina que para realizar una evaluación realmente completa y efectiva de los modelos de lenguaje grandes, es necesario considerar otras dimensiones como la robustez y la seguridad del modelo, y que este proceso aún se encuentra en fase de exploración.
Investigación sobre el caos en la evaluación de modelos grandes: el tamaño de los parámetros no lo es todo
