El artículo analiza el "caos de las puntuaciones" en los sistemas actuales de evaluación de modelos grandes, afirmando que las clasificaciones de estos modelos a menudo presentan una situación de "todos son los primeros". Los conjuntos de datos de evaluación de código abierto existentes provocan el fenómeno de "memorización", mientras que los conjuntos de datos privados cerrados afectan a la imparcialidad. Además, las dimensiones de evaluación de algunas clasificaciones no son lo suficientemente científicas ni completas. El artículo propone la creación de un sistema de evaluación autorizado, con herramientas y procesos de evaluación de código abierto para garantizar la imparcialidad, pero utilizando un modelo de conjunto de datos de evaluación que combine datos históricos abiertos con datos oficiales cerrados. Además, la comercialización de los modelos grandes es mucho más importante que los parámetros del modelo y la clasificación en las listas de clasificación.