Une analyse de dix ans d'articles scientifiques révèle que les chercheurs ont découvert que les modèles d'intelligence artificielle abusaient de certains mots de « style », mots rarement utilisés il y a quelques années.
Dans une nouvelle étude non encore soumise à l'évaluation par les pairs, les chercheurs ont utilisé une méthode novatrice, similaire à l'épidémiologie, pour analyser l'« utilisation excessive de vocabulaire » dans les articles biomédicaux afin de mettre en évidence l'abus de certains mots par les grands modèles de langage. Les résultats offrent des perspectives intéressantes sur l'impact de l'IA dans le monde universitaire, suggérant qu'au moins 10 % des résumés ont été traités à l'aide de grands modèles de langage en 2024.
Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney
Cette étude est basée sur une analyse approfondie de 14 millions de résumés biomédicaux publiés sur PubMed entre 2010 et 2024. Les chercheurs ont utilisé les articles publiés avant 2023 comme référence et les ont comparés aux articles publiés après la commercialisation généralisée de grands modèles de langage tels que ChatGPT. Ils ont constaté que certains mots autrefois considérés comme « inhabituels », comme « approfondi », sont maintenant utilisés 25 fois plus souvent qu'auparavant, tandis que d'autres mots, tels que « montrer » et « souligner », ont connu une augmentation similaire. Cependant, certains mots « communs » ont également augmenté : l'utilisation de mots tels que « potentiel », « découverte » et « clé » a augmenté de 4 % au maximum.
Les chercheurs soulignent que cette augmentation significative est essentiellement sans précédent sans explication liée à des événements mondiaux urgents. Ils ont constaté que les mots excessifs entre 2013 et 2023 comprenaient des noms propres étroitement liés à des événements réels, tels que « Ebola », « coronavirus » et « confinement ». Cependant, les mots excessifs de 2024 sont presque tous des mots de « style ». Quantitativement, parmi les 280 mots de « style » excessifs en 2024, les deux tiers sont des verbes et environ un cinquième sont des adjectifs.
En utilisant ces mots de style excessifs comme « marqueurs » de l'utilisation de ChatGPT, les chercheurs estiment qu'environ 15 % des articles publiés dans des pays non anglophones comme la Chine, la Corée du Sud et Taïwan sont désormais traités par l'intelligence artificielle, contre 3 % dans les pays anglophones comme le Royaume-Uni. Par conséquent, les grands modèles de langage peuvent être un outil efficace pour les non-anglophones pour réussir dans un domaine dominé par l'anglais.
Points clés :
🔍 Les chercheurs ont découvert, en analysant des articles biomédicaux, que les modèles d'intelligence artificielle abusaient de certains mots de « style » rarement utilisés il y a quelques années.
🔍 La commercialisation généralisée des grands modèles de langage a entraîné une augmentation significative de la fréquence d'utilisation de certains mots, ce qui suggère que l'impact de l'IA sur le monde universitaire pourrait être sans précédent.
🔍 Dans les pays non anglophones, la proportion d'articles traités par l'intelligence artificielle atteint environ 15 %, ce qui montre que les grands modèles de langage peuvent être un outil efficace pour les non-anglophones pour réussir dans un domaine dominé par l'anglais.