JudgeLM : Un modèle d'évaluation de grands modèles

L'Institut de Recherche sur l'Intelligence Artificielle (AIRS) a publié en open source un modèle d'évaluation nommé JudgeLM, capable d'évaluer efficacement et précisément divers grands modèles. Comparé à GPT-4, JudgeLM ne coûte que 1/120ème et atteint plus de 90% de cohérence dans ses résultats d'évaluation.

JudgeLM est applicable à de nombreux scénarios d'évaluation, incluant le texte pur et les données multimodales, et peut fournir des scores, des jugements et des explications justificatives. Grâce à des méthodes innovantes, la cohérence de JudgeLM avec les réponses de référence dépasse les 90% dans certains cas, se rapprochant des performances humaines.

L'AIRS a également publié en open source un ensemble de données contenant des échantillons d'entraînement et de validation, destinés à approfondir la recherche sur l'évaluation des grands modèles de langage. À l'avenir, l'équipe JudgeLM continuera à améliorer ce modèle d'évaluation afin de fournir une évaluation des grands modèles de langage plus précise, plus efficace et couvrant un plus large éventail de scénarios.