Dans le monde de l'intelligence artificielle, le Gaokao (examen d'entrée à l'université en Chine) n'est plus uniquement une compétition humaine. Récemment, le laboratoire d'intelligence artificielle de Shanghai a organisé un Gaokao hors du commun, nous permettant d'assister à la démonstration des capacités académiques de l'IA. Ils ont utilisé le système d'évaluation OpenCompass pour soumettre sept modèles d'IA, dont GPT-4o, à des tests complets de chinois, mathématiques et anglais.

2_1718848649312_ai2023_A_large_classroom_filled_with_rows_of_robots_sitting_at__db532bea-895e-4609-b80c-5fedf4ecf846.png

Source : Image générée par IA, fournie par Midjourney

L'examen utilisé était le sujet national I du Gaokao, garantissant que tous les modèles open source participants étaient disponibles avant l'examen, assurant ainsi l'impartialité du test. De plus, les « copies » de ces IA ont été corrigées manuellement par des enseignants expérimentés dans la correction du Gaokao, afin de se rapprocher au plus près des critères de notation réels.

Les modèles évalués provenaient de différents horizons : Mixtral8x22B, modèle conversationnel open source de la startup française d'IA Mistral, Yi-1.5-34B de Lingyi Wanwu, GLM-4-9B de Zhipu AI, InternLM2-20B-WQX du laboratoire d'intelligence artificielle de Shanghai, et la série Qwen2 d'Alibaba. GPT-4o, en tant que modèle propriétaire, a participé à titre de référence.

image.png

Les résultats ont révélé que Qwen2-72B a obtenu le meilleur score avec 303 points, suivi de près par GPT-4o avec 296 points, et InternLM2-20B-WQX avec 295,5 points. Ces modèles ont obtenu de bons résultats en chinois et en anglais, avec un taux de réussite moyen de 67 % en chinois et de 81 % en anglais. Cependant, en mathématiques, le taux de réussite moyen de tous les modèles n'était que de 36 %, montrant que l'IA a encore beaucoup de marge de progression en matière de raisonnement mathématique.

Les correcteurs ont effectué une analyse complète des copies des modèles d'IA. En chinois, les modèles ont généralement bien réussi la compréhension de textes modernes, mais ont montré des lacunes en chinois classique et en rédaction. En mathématiques, les modèles ont une bonne capacité de mémorisation des formules, mais ils manquent de flexibilité dans l'application des formules lors de la résolution de problèmes. Les résultats en anglais ont été globalement bons, mais certains modèles ont obtenu des scores plus faibles sur certains types de questions.

Ce « Gaokao des grands modèles » nous a non seulement permis de constater le potentiel de l'IA dans le domaine académique, mais aussi de mettre en lumière ses limites en termes de compréhension et d'application des connaissances. Avec les progrès technologiques constants, nous pouvons croire que l'IA du futur sera plus intelligente et mieux au service de la société humaine.