En la competencia mundial de modelos de lenguaje grande de 2023, el desempeño de los modelos de lenguaje grande en chino atrajo mucha atención. La Universidad China de Hong Kong lanzó la plataforma de evaluación CLEVA para chino, que incluye tareas y métricas de evaluación integrales.
CLEVA se centra en una variedad de métricas, como la precisión, la robustez, la equidad, la eficiencia, la calibración y la diversidad. Simultáneamente, proporciona diversas plantillas de indicaciones para asegurar la equidad de la evaluación y el análisis del rendimiento del modelo. CLEVA también emplea varios métodos para mitigar el riesgo de contaminación de datos y ofrece una interfaz fácil de usar.