Des recherches récentes montrent que, malgré d'excellentes performances de l'intelligence artificielle (IA) dans des domaines tels que la programmation et la création de contenu, elle reste insuffisante pour traiter des problèmes historiques complexes. Une étude présentée récemment à la conférence NeurIPS révèle que même les modèles linguistiques de grande taille (LLM) les plus avancés peinent à obtenir des résultats satisfaisants lors de tests de connaissances historiques.
L'équipe de recherche a développé un référentiel de test appelé Hist-LLM pour évaluer trois modèles linguistiques de pointe : GPT-4 d'OpenAI, Llama de Meta et Gemini de Google. Les tests, basés sur la base de données historique mondiale Seshat, ont donné des résultats décevants : le GPT-4 Turbo, le modèle le plus performant, n'a atteint qu'un taux de précision de 46 %.
Source : Image générée par IA, fournie par Midjourney
Maria del Rio-Chanona, professeure adjointe à l'University College de Londres, explique : « Ces modèles réussissent bien sur les faits historiques de base, mais ils sont dépassés lorsqu'il s'agit de recherches historiques approfondies de niveau doctoral. » L'étude a révélé que l'IA commettait souvent des erreurs de détail, par exemple en se trompant sur la possession ou non de certaines technologies militaires ou d'une armée permanente à certaines périodes de l'Égypte ancienne.
Les chercheurs estiment que ces mauvaises performances sont dues à la tendance des modèles d'IA à extrapoler à partir du récit historique dominant, ce qui les empêche de saisir les détails historiques plus subtils. De plus, l'étude a révélé que ces modèles obtenaient de moins bons résultats sur les questions historiques concernant l'Afrique subsaharienne, révélant ainsi un biais potentiel dans les données d'entraînement.
Peter Turchin, responsable de la recherche au Centre des sciences de la complexité (CSH), déclare que cette découverte montre que, dans certains domaines spécialisés, l'IA ne peut pas encore remplacer les experts humains. Cependant, l'équipe de recherche reste optimiste quant aux perspectives d'application de l'IA dans la recherche historique. Elle améliore actuellement le référentiel de test afin de contribuer au développement de modèles plus performants.