Com o boom do ChatGPT, rankings de avaliação de modelos de linguagem grandes (LLMs) nacionais e internacionais têm sido lançados sucessivamente. No entanto, modelos com tamanhos de parâmetros semelhantes apresentam diferenças significativas de classificação em diferentes rankings. A indústria e o meio acadêmico analisam que isso se deve principalmente às diferenças nos conjuntos de avaliação, e também à crescente proporção de questões subjetivas, o que levanta dúvidas sobre a imparcialidade da avaliação. Portanto, instituições de avaliação de terceiros, como OpenCompass e FlagEval, estão ganhando destaque. No entanto, a indústria acredita que, para realizar uma avaliação de LLM realmente abrangente e eficaz, outros aspectos, como a robustez e a segurança do modelo, também precisam ser considerados, e a pesquisa ainda está em andamento.