CritiqueLLM: Un modelo de evaluación de bajo costo y alta calidad

Recientemente, ZhiPu AI lanzó CritiqueLLM, un modelo de evaluación de alta calidad y bajo costo diseñado para evaluar el rendimiento de los modelos de generación de texto. Los indicadores de evaluación tradicionales, como BLEU y ROUGE, se basan principalmente en la coincidencia de n-gramas para calcular las puntuaciones, lo que carece de una comprensión completa del significado global. Los métodos de evaluación basados en modelos, por otro lado, dependen en gran medida de la selección del modelo base; solo los modelos grandes de primer nivel pueden lograr resultados satisfactorios.

Para solucionar estos problemas, CritiqueLLM propone un modelo de evaluación de la calidad del texto explicable y escalable. Es capaz de generar puntuaciones y explicaciones de alta calidad para diversas tareas. En escenarios con texto de referencia, CritiqueLLM compara el texto generado por el modelo grande con el texto de referencia y proporciona una puntuación. En 8 tareas comunes, el coeficiente de correlación entre las puntuaciones de CritiqueLLM y las puntuaciones humanas supera significativamente a otros modelos, especialmente en configuraciones sin texto de referencia, donde CritiqueLLM superó a GPT-4 en 3 tareas, alcanzando el mejor rendimiento de evaluación.

El método de CritiqueLLM incluye cuatro pasos principales: aumento de consultas de usuario, recopilación de datos de evaluación con texto de referencia, reescritura de datos de evaluación sin texto de referencia y entrenamiento del modelo CritiqueLLM. A través de estos pasos, se obtienen dos modelos CritiqueLLM, uno para escenarios con texto de referencia y otro para escenarios sin texto de referencia, utilizados para evaluar el rendimiento de los modelos de generación de texto.