AlignBench : Une nouvelle référence pour l'évaluation des modèles linguistiques chinois

Zhihu AI a publié AlignBench, un référentiel d'évaluation spécialement conçu pour les grands modèles linguistiques (LLM) chinois. Il s'agit du premier référentiel de ce type pour les modèles chinois, permettant une évaluation multidimensionnelle précise de l'alignement entre le modèle et les intentions humaines.

Les données d'AlignBench proviennent de scénarios d'utilisation réels. Elles ont subi plusieurs étapes de traitement : construction initiale, filtrage de la sensibilité, génération de réponses de référence et sélection de la difficulté, garantissant ainsi leur réalisme et leur caractère stimulant. L'ensemble de données est divisé en 8 grandes catégories, incluant des questions de différents types comme les Q&R, la génération de texte et les jeux de rôle.

Pour automatiser et reproduire les évaluations, AlignBench utilise des modèles de notation (tels que GPT-4 et CritiqueLLM) pour attribuer un score à chaque réponse du modèle, reflétant ainsi sa qualité. Ces modèles de notation utilisent une méthode de notation multidimensionnelle et calibrée, améliorant la cohérence entre la notation du modèle et la notation humaine, et fournissant une analyse et des scores d'évaluation détaillés.

Les développeurs peuvent utiliser AlignBench pour évaluer leurs modèles et utiliser des modèles de notation performants (tels que GPT-4 ou CritiqueLLM) pour obtenir un score. Via le site web d'AlignBench, la soumission des résultats permet une évaluation utilisant CritiqueLLM comme modèle de notation, et les résultats sont disponibles en environ 5 minutes.