Récemment, l'équipe de modèles linguistiques de masse Doubao de ByteDance, en collaboration avec la communauté open source M-A-P, a publié SuperGPQA, un benchmark de raisonnement de connaissances couvrant 285 disciplines de niveau master et comprenant 26 529 questions professionnelles.
Cet ensemble de données ne couvre pas seulement les disciplines principales telles que les mathématiques et la physique, mais intègre également pour la première fois des disciplines de niche comme l'industrie légère, l'agriculture et les sciences du service dans le système d'évaluation, comblant ainsi les lacunes des benchmarks existants dans le domaine des connaissances de niche. SuperGPQA a été utilisé pour révéler l'écart de performance entre les modèles open source et les modèles propriétaires, devenant ainsi un outil important pour le développement de l'IA.
Les benchmarks traditionnels tels que MMLU et GPQA couvrent moins de 50 disciplines, et la proportion de disciplines de niche est inférieure à 5 %. De plus, en raison de la source de données unique (comme Wikipédia) et de l'annotation crowdsourcée peu fiable, il est difficile d'évaluer les capacités de raisonnement des modèles dans des scénarios complexes. SuperGPQA, construit en six mois grâce à un mécanisme de collaboration expert-LLM, sélectionne les questions à partir de sources fiables. Chaque question propose en moyenne 9,67 options, et 42,33 % nécessitent des calculs mathématiques ou un raisonnement formel, alliant ainsi ampleur et profondeur. Les expériences montrent que le modèle DeepSeek-R1, le plus performant, n'atteint qu'une précision de 61,82 %, ce qui indique que les grands modèles linguistiques actuels ont encore une marge de progression dans les domaines de connaissances diversifiés.
SuperGPQA utilise un processus en trois étapes pour améliorer la qualité : sélection des questions initiales par des experts, transcription normalisée et contrôle qualité multicouche (filtrage par règles, détection par LLM, révision par des experts). Les résultats des évaluations montrent que l'ajustement des instructions améliore considérablement les performances, comme DeepSeek-V3 qui surpasse la version de base, mais les modèles open source restent en retard sur les solutions propriétaires pour les questions difficiles.
Lien de l'article : https://arxiv.org/pdf/2502.14739
Lien des données : https://huggingface.co/datasets/m-a-p/SuperGPQA
Lien du code : https://github.com/SuperGPQA/SuperGPQA