In den letzten Jahren ist der Bandbreitenverbrauch von Wikimedia-Projekten durch Webcrawler aufgrund des rasanten Fortschritts der künstlichen Intelligenz (KI) stetig gestiegen. Vertreter der Wikimedia Foundation gaben an, dass der Bandbreitenverbrauch für Multimedia-Dateien seit Januar 2024 um 50 % zugenommen hat. Dieser Anstieg ist hauptsächlich auf automatisierte Programme zurückzuführen, die kontinuierlich Inhalte aus dem Open-Source-Bildarchiv von Wikimedia für das Training von KI-Modellen extrahieren.

Wikipedia

Birgit Mueller, Chris Danis und Giuseppe Lavagetto von der Wikimedia Foundation erklärten in einem offenen Brief, dass dieser Bandbreitenanstieg nicht von menschlichen Nutzern, sondern von der hohen Nachfrage von Roboterprogrammen herrührt. Sie betonten: „Unsere Infrastruktur ist darauf ausgelegt, die Spitzenlasten menschlicher Nutzer während von großem Interesse geprägter Ereignisse zu bewältigen, aber der durch Crawler erzeugte Datenverkehr ist beispiellos und birgt für uns immer größere Risiken und Kosten.“

Laut Wikimedia-Statistiken werden etwa 65 % des kostenintensiven Datenverkehrs von diesen Crawlern generiert, obwohl Crawler nur 35 % der Seitenaufrufe ausmachen. Dies liegt daran, dass Wikimedias Caching-System beliebte Inhalte weltweit auf verschiedene Rechenzentren verteilt, um die Leistung zu verbessern. Crawler berücksichtigen jedoch bei der Seitenabfrage nicht die Popularität der Inhalte und fordern daher auch weniger beliebte Inhalte an. Dies führt dazu, dass die Inhalte aus dem zentralen Rechenzentrum abgerufen werden müssen, was mehr Rechenressourcen verbraucht.

Im vergangenen Jahr wurde das Problem des übermäßigen Crawlens bereits von mehreren Open-Source-Projekten thematisiert. So äußerten beispielsweise der Git-Hosting-Dienst Sourcehut, der Diaspora-Entwickler Dennis Schubert, die Reparatur-Website iFixit und ReadTheDocs ihre Unzufriedenheit. Sie alle berichteten von der übermäßigen Nachfrage der KI-Crawler beim Abrufen von Inhalten.

Die Wikimedia Foundation hat sich in ihrer Jahresplanung 2025/2026 das Ziel gesetzt, „den durch Crawler generierten Datenverkehr zu reduzieren“. Geplant ist eine Reduzierung der Anforderungsrate um 20 % und des Bandbreitenverbrauchs um 30 %. Man möchte die Nutzererfahrung für menschliche Nutzer priorisieren und die Wikimedia-Projekte und -Mitwirkenden unterstützen.

Viele Websites erkennen zwar an, dass die Bereitstellung von Bandbreite für Crawler zum Geschäft gehört, aber mit der Verbreitung von generativer KI wie ChatGPT wird das Crawling-Verhalten immer aggressiver und kann sogar die Existenz der Quellwebsites gefährden. Die Wikimedia Foundation räumt ein, dass Wikipedia und Wikimedia Commons zwar für das Training von Machine-Learning-Modellen sehr wichtig sind, aber die Bedürfnisse menschlicher Nutzer priorisiert werden müssen.

Um dieser Herausforderung zu begegnen, wurden bereits einige Tools entwickelt, um dem übermäßigen Crawling entgegenzuwirken, darunter die Data-Poisoning-Projekte Glaze, Nightshade und ArtShield sowie die Webtools Kudurru und Nepenthes. Die bestehenden Robots.txt-Regeln können das Verhalten dieser Crawler jedoch nicht vollständig effektiv einschränken, insbesondere da sie sich als andere Crawler tarnen können, um Sperren zu umgehen.

Wichtigste Punkte:

🌐 Der Bandbreitenverbrauch von Wikimedia durch Crawler ist um 50 % gestiegen, hauptsächlich durch das Herunterladen von Inhalten für KI-Modelle.

🤖 Etwa 65 % des kostenintensiven Datenverkehrs werden von Crawlern generiert, obwohl Crawler nur 35 % der Seitenaufrufe ausmachen.

📉 Die Wikimedia Foundation plant für 2025/2026 eine Reduzierung des durch Crawler generierten Datenverkehrs und priorisiert die Bedürfnisse menschlicher Nutzer.