Récemment, une équipe de chercheurs de l'Université de Princeton a publié une étude intéressante révélant qu'environ 4,36 % des nouveaux articles Wikipédia en août 2024 contenaient un contenu généré par l'IA de manière significative.
Cette étude a été menée par Creston Brooks, Samuel Eggert et Denis Peskoff, qui ont utilisé des outils tels que GPTZero et Binoculars pour détecter ce contenu généré par l'IA.
L'étude montre une augmentation significative du contenu généré par l'IA dans les articles Wikipédia de 2024 par rapport aux données antérieures à la sortie de GPT-3.5. Sur les 2909 articles Wikipédia anglais analysés, GPTZero en a identifié 156 et Binoculars 96, avec un chevauchement de 45 articles.
Les articles signalés étaient généralement de qualité inférieure, avec peu de références et une faible intégration dans le réseau de connaissances de Wikipédia. Certains articles semblaient auto-promotionnels, faisant la promotion de personnes ou d'entreprises, souvent avec des références superficielles, telles que des vidéos YouTube personnelles.
En ce qui concerne le contenu politique, huit articles ont clairement promu des points de vue spécifiques sur des sujets controversés, notamment des guerres d'édition concernant l'histoire albanaise. De plus, certains utilisateurs ont utilisé de grands modèles linguistiques (LLM) pour créer du contenu sur des sujets de niche, notamment les champignons, la gastronomie et les sports, voire des résumés de livres chapitre par chapitre.
L'étude a également comparé le contenu généré par l'IA sur Wikipédia à celui de Reddit et des communiqués de presse des Nations Unies. Elle a constaté que le contenu généré par l'IA sur Reddit était beaucoup plus faible que sur Wikipédia, représentant moins de 1 %. Cela suggère que le contenu généré par l'IA sur Reddit est soit rare, soit soumis à une modération, soit difficile à détecter. En revanche, les communiqués de presse des Nations Unies générés par l'IA ont considérablement augmenté, passant de moins de 1 % avant 2022 à 20 % en 2024.
Le rapport souligne enfin que, parallèlement à l'essor des LLM génératifs, les outils de détection de l'IA évoluent également. Cependant, l'évaluation de ces détecteurs dans différents contextes, notamment la longueur des textes, les domaines et l'intégration homme-machine, reste un défi.
Pour relever le défi du contenu généré par l'IA, les particuliers, les établissements d'enseignement, les entreprises et les gouvernements doivent activement rechercher des méthodes fiables pour vérifier l'authenticité des contenus créés par des humains. Les organismes de réglementation doivent également renforcer la gestion du contenu généré par l'IA. Par exemple, la Chine a commencé à prendre des mesures pour améliorer la transparence des informations générées par l'IA sur Internet et a publié des projets de réglementations. L'Inde a également publié cette année des recommandations concernant le marquage du contenu lié à l'IA, même si cette proposition a suscité de nombreuses controverses et critiques.
Points clés :
📊 L'étude révèle qu'environ 4,36 % des nouveaux articles Wikipédia sont générés par l'IA.
🔍 Le contenu généré par l'IA sur Reddit est inférieur à 1 %, ce qui montre une différence significative.
🌐 Les différents pays explorent des mesures de réglementation et des exigences de marquage pour le contenu généré par l'IA.