Le Dernier Examen de l'Humanité est un benchmark multimodale développé en collaboration par des experts du monde entier. Il vise à mesurer les performances des grands modèles de langage dans le domaine académique. Il comprend 3000 questions provenant de près de 1000 experts de plus de 500 institutions dans plus de 50 pays, couvrant plus de 100 disciplines. Ce test, conçu pour être la référence académique définitive et fermée, vise à pousser les limites des modèles et à stimuler le développement de l'intelligence artificielle. Son principal atout est sa difficulté élevée, permettant une évaluation efficace des performances des modèles sur des problèmes académiques complexes.