智谱 AI ha lanzado AlignBench, un conjunto de referencia de evaluación específicamente diseñado para modelos de lenguaje grande (LLM) en chino. Este es el primer conjunto de referencia de este tipo para modelos de lenguaje grande chinos, capaz de evaluar meticulosamente el nivel de alineación entre el modelo y la intención humana en múltiples dimensiones.
El conjunto de datos de AlignBench proviene de escenarios de uso reales. Ha pasado por varias etapas de desarrollo, incluyendo la construcción inicial, la detección de contenido sensible, la generación de respuestas de referencia y la selección de dificultad, garantizando así su realismo y desafío. El conjunto de datos se divide en 8 grandes categorías, que incluyen preguntas de diversos tipos como preguntas y respuestas de conocimiento, generación de textos y juegos de rol.
Para lograr la automatización y la reproducibilidad, AlignBench utiliza modelos de puntuación (como GPT-4 y CritiqueLLM) para calificar las respuestas de cada modelo, representando así la calidad de sus respuestas. Estos modelos de puntuación emplean métodos de calificación multidimensionales y calibrados por reglas, lo que aumenta la consistencia entre la calificación del modelo y la calificación humana, y proporciona un análisis y puntuaciones de evaluación detalladas.
Los desarrolladores pueden utilizar AlignBench para realizar evaluaciones y emplear modelos de puntuación de alta capacidad (como GPT-4 o CritiqueLLM) para obtener puntuaciones. A través del sitio web de AlignBench, al enviar los resultados, se puede utilizar CritiqueLLM como modelo de puntuación, obteniendo los resultados de la evaluación en aproximadamente 5 minutos.