Récemment, Zhihu AI a publié CritiqueLLM, un modèle d'évaluation de haute qualité et à faible coût pour évaluer les performances des modèles de génération de texte. Les indicateurs d'évaluation traditionnels tels que BLEU et ROUGE se basent principalement sur le degré de correspondance des n-grammes pour calculer les scores, manquant ainsi de compréhension de la sémantique globale. Les méthodes d'évaluation basées sur des modèles dépendent fortement du choix du modèle de base, seuls les grands modèles de pointe pouvant obtenir des résultats satisfaisants.
Pour résoudre ces problèmes, CritiqueLLM propose un modèle d'évaluation de la qualité du texte interprétable et extensible. Il est capable de générer des scores et des explications d'évaluation de haute qualité pour diverses tâches. Dans les scénarios avec texte de référence, CritiqueLLM compare le texte généré par le grand modèle au texte de référence et fournit un score. Sur 8 tâches courantes, le coefficient de corrélation entre les scores de CritiqueLLM et les scores humains dépasse significativement ceux des autres modèles, notamment dans le cas sans texte de référence, où CritiqueLLM surpasse GPT-4 sur 3 tâches, atteignant les meilleures performances d'évaluation.
La méthode CritiqueLLM comprend quatre étapes principales : l'augmentation des requêtes utilisateur, la collecte de données d'évaluation avec texte de référence, la réécriture des données d'évaluation sans texte de référence et l'entraînement du modèle CritiqueLLM. Grâce à ces étapes, on obtient deux modèles CritiqueLLM, adaptés aux scénarios avec et sans texte de référence, pour évaluer les performances des modèles de génération de texte.