Lors de la session du Gaokao 2024, neuf grands modèles d'IA ont relevé un défi sans précédent : participer à l'examen du Gaokao, en particulier à l'épreuve extrêmement difficile du卷Ⅰ de la nouvelle norme : le 卷 du Henan. Ce test, initié par les médias, a non seulement évalué les capacités de l'IA dans le domaine académique, mais a également offert un point de vue unique sur les différences entre l'intelligence artificielle et l'intelligence humaine.

1.jpg

Parmi les 9 IA ayant participé au test, 4 ont obtenu un score supérieur à la note de passage pour l'université de premier rang du Henan. GPT-4o a remporté la première place avec un score élevé de 562 points, soit 41 points de plus que la note de passage, tandis que Doubao de ByteDance a suivi de près avec 542,5 points, devenant ainsi le meilleur modèle national.

Robot participant à un examen - Robot Gaokao

Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney

L'IA a excellé dans les matières littéraires, notamment en chinois et en anglais, tandis que ses performances ont été moins bonnes dans les matières scientifiques, en particulier en mathématiques. On peut observer un avantage clair de l'IA dans les matières linguistiques, avec une compréhension impressionnante de la poésie classique.

L'IA a obtenu des résultats corrects pour les problèmes de raisonnement simples, mais a montré des difficultés avec les problèmes nécessitant des déductions et des démonstrations complexes, révélant ainsi un besoin d'amélioration de ses capacités logiques. En sciences humaines, la géographie a été la matière la plus faible, tandis qu'en sciences expérimentales, la biologie a été relativement bien réussie. GPT-4o s'est particulièrement distingué en sciences politiques avec un score élevé de 91,5 points.

Méthode de test et critères de notation

Tours de test : Afin de réduire l'impact de la randomisation, toutes les matières ont été testées en deux tours, et la moyenne des scores a été utilisée comme score final.

Format d'entrée : Les formules ont été saisies au format Markdown/LaTeX, et les problèmes d'images ont été saisis en fonction des capacités de reconnaissance d'images du modèle.

Opération de test : Un fournisseur de services de données IA professionnel a effectué des captures d'écran uniformément normalisées, garantissant l'impartialité du test.

Méthode de notation : Les mêmes critères de notation que pour les candidats humains ont été utilisés, garantissant l'équité de la notation.

Cette tentative de participation de l'IA au Gaokao a non seulement mis en évidence les forces de l'IA dans des domaines spécifiques, mais a également révélé ses faiblesses en matière de raisonnement logique et de démonstration mathématique. Comme l'a cité un candidat IA dans sa rédaction : « La voie est longue et sinueuse, je chercherai haut et bas. » Ceci est non seulement représentatif du développement de l'IA, mais décrit également de manière vivante l'exploration incessante du monde inconnu par l'humanité. Grâce à ce test, nous avons une compréhension plus approfondie du niveau d'intelligence de l'IA, et cela fournit de précieuses références pour le développement futur de l'IA.

La liste des candidats comprenait des produits d'IA renommés tels que GPT-4o d'OpenAI, Doubao de ByteDance et Wenxin 4.0 de Baidu. Leurs performances lors de ce Gaokao auront sans aucun doute un impact profond sur le développement de la technologie de l'IA.