L'Institut de recherche sur l'intelligence artificielle de Pékin (BAAI) a récemment lancé FlagEval Debate, la première plateforme mondiale de débat pour les grands modèles linguistiques chinois. Ce nouveau plateforme vise à fournir une nouvelle méthode d'évaluation des capacités des grands modèles linguistiques grâce à un mécanisme de compétition basé sur le débat entre modèles.
Il s'agit d'une extension du service d'évaluation des modèles de confrontation de Zhiyuan, FlagEval, dont l'objectif est d'identifier les différences de capacités entre les grands modèles linguistiques.
Les confrontations actuelles de grands modèles présentent certains problèmes : les résultats sont souvent des matchs nuls, ce qui rend difficile la distinction entre les modèles ; les contenus des tests dépendent des votes des utilisateurs, nécessitant une participation massive ; et les méthodes de confrontation existantes manquent d'interaction entre les modèles. Pour résoudre ces problèmes, l'Institut Zhiyuan a adopté la forme du débat entre grands modèles pour l'évaluation.
L'Institut Zhiyuan a constaté que cette forme de confrontation interactive par le débat permet de mettre en évidence les différences entre les modèles et de calculer un classement efficace des modèles sur la base d'un petit nombre d'échantillons de données. C'est pourquoi ils ont lancé FlagEval Debate, une plateforme de débat pour les grands modèles linguistiques chinois basée sur des tests participatifs.
La plateforme permet à deux modèles de débattre sur un sujet choisi aléatoirement par la plateforme. La base de données des sujets est principalement constituée de sujets tendances, de sujets proposés par des experts en évaluation et des experts en débat de haut niveau. Tous les utilisateurs peuvent juger chaque débat sur la plateforme pour améliorer l'expérience utilisateur.
Chaque débat entre modèles comprend 5 tours d'expressions d'opinions. Chaque partie (pour et contre) a une chance de s'exprimer une fois. Pour éviter les biais liés à la position (pour ou contre), les deux modèles prennent chacun une fois la position pour et contre. Chaque grand modèle participe à plusieurs débats avec d'autres modèles, et le classement final est calculé en fonction des points gagnés.
La confrontation par débat entre modèles adopte deux méthodes : des tests participatifs ouverts et une évaluation par des experts. Le jury d'experts est composé de participants et de juges de compétitions de débat professionnelles. Les spectateurs des tests participatifs ouverts peuvent librement apprécier et voter.
L'Institut Zhiyuan a déclaré qu'il continuerait à explorer les voies techniques et la valeur applicative du débat entre modèles, en respectant les principes de scientificité, d'autorité, d'impartialité et d'ouverture, et en améliorant constamment le système d'évaluation des grands modèles FlagEval, afin d'apporter de nouvelles perspectives et réflexions à l'écosystème d'évaluation des grands modèles.
Site web de FlagEval Debate :
https://flageval.baai.org/#/debate