Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

La Fondation Wikimedia met en garde contre la charge de bande passante due aux robots d'exploration IA

AIbase基地

Publié leActualités IA · 7 minutes de lecture · Apr 3, 2025

Ces dernières années, avec le développement rapide de l'intelligence artificielle, la pression sur la bande passante des projets Wikimedia causée par les robots d'indexation est devenue de plus en plus importante. Des représentants de la Fondation Wikimedia ont indiqué qu'depuis janvier 2024, la consommation de bande passante pour les fichiers multimédias a augmenté de 50 %. Cette augmentation provient principalement de programmes automatisés qui extraient constamment du contenu de la bibliothèque d'images sous licence ouverte de Wikimedia pour entraîner des modèles d'IA.

Wikipédia

Dans une lettre ouverte, Birgit Mueller, Chris Danis et Giuseppe Lavagetto, membres du personnel de la Fondation Wikimedia, ont déclaré que cette augmentation de la bande passante ne provenait pas des utilisateurs humains, mais de la forte demande des robots. Ils soulignent : « Nos infrastructures sont conçues pour supporter les pics de trafic des utilisateurs humains lors d'événements très suivis, mais le trafic généré par les robots d'indexation est sans précédent et nous expose à des risques et des coûts croissants. »

Selon les statistiques de Wikimedia, environ 65 % du trafic à coût élevé est généré par ces robots d'indexation, bien qu'ils ne représentent que 35 % des consultations de pages. Cela est dû au fait que le système de cache de Wikimedia distribue le contenu populaire vers des centres de données du monde entier pour améliorer les performances, tandis que les robots d'indexation, lorsqu'ils accèdent aux pages, ne tiennent pas compte de la popularité du contenu. Ils demandent donc des contenus moins populaires, ce qui oblige à les récupérer depuis le centre de données principal, consommant ainsi davantage de ressources de calcul.

Au cours de l'année écoulée, le problème de la sur-extraction par les robots d'indexation a suscité l'inquiétude de plusieurs projets open source. Par exemple, le service d'hébergement Git Sourcehut, le développeur de Diaspora Dennis Schubert, le site de réparation iFixit et ReadTheDocs ont tous exprimé leur mécontentement. Ils ont tous signalé la demande excessive des robots d'indexation d'IA lors de l'extraction de contenu.

Dans son plan annuel 2025/2026, la Fondation Wikimedia s'est fixé comme objectif de « réduire le trafic généré par les robots d'indexation », prévoyant de réduire le taux de requêtes de 20 % et l'utilisation de la bande passante de 30 %. Elle souhaite donner la priorité à l'expérience utilisateur humaine et soutenir les projets et les contributeurs Wikimedia.

Bien que de nombreux sites Web reconnaissent que fournir de la bande passante aux robots d'indexation fait partie du jeu commercial, avec la popularisation des IA génératives comme ChatGPT, le comportement d'extraction des robots d'indexation est devenu de plus en plus agressif, pouvant même menacer l'existence des sites Web sources. La Fondation Wikimedia reconnaît que, bien que Wikipédia et Wikimedia Commons soient très importants pour l'entraînement des modèles d'apprentissage automatique, elle doit donner la priorité aux besoins des utilisateurs humains.

Pour relever ce défi, certains outils ont été développés pour lutter contre la sur-extraction par les robots d'indexation, tels que les projets d'empoisonnement des données Glaze, Nightshade et ArtShield, ainsi que les outils Web Kudurru et Nepenthes. Cependant, le fichier robots.txt existant n'est pas totalement efficace pour limiter le comportement de ces robots d'indexation, notamment parce qu'ils peuvent se faire passer pour d'autres robots d'indexation pour contourner les blocages.

Points clés :
🌐 La consommation de bande passante de Wikimedia par les robots d'indexation a augmenté de 50 %, principalement due à l'extraction de contenu par les modèles d'IA.
🤖 Environ 65 % du trafic à coût élevé est généré par les robots d'indexation, alors qu'ils ne représentent que 35 % des consultations de pages.
📉 La Fondation Wikimedia prévoit de réduire le trafic généré par les robots d'indexation en 2025/2026, en donnant la priorité aux besoins des utilisateurs humains.

Modèle IA Wikimedia Robot d'exploration Charge de bande passante

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily