KI-Nachrichten

Verpassen Sie keinen Moment der globalen KI-Innovation

KI-Tagesübersicht

Tägliche Drei-Minuten-KI-Branchentrends

KI-Zeitleiste

Meilensteine der KI-Industrie

KI-Monetarisierungs-Leitfaden

Neueste Fälle

KI-Monetarisierungsfall-Sharing

Bildersammlung

KI-Bilderstellungs-Monetarisierungsfälle

Videosammlung

KI-Videoerstellungs-Monetarisierungsfälle

Audiosammlung

KI-Audioerstellungs-Monetarisierungsfälle

Inhaltssammlung

KI-Content-Writing-Monetarisierungsfälle

KI-Tutorials

Neueste Tutorials

Kostenlose Weitergabe der neuesten KI-Tutorials

KI-Produkt-Rankings

KI-Produkt-Ranking

Zeigt das Ranking der Gesamtbesuche von KI-Websites

KI-Traffic-Wachstumsranking

Verfolgen Sie die am schnellsten wachsenden KI-Websites nach Traffic

KI-Traffic-Rückgangsranking

Konzentrieren Sie sich auf KI-Websites mit signifikanten Traffic-Einbrüchen

KI-Wochenranking

Zeigt das wöchentliche Besuchsranking von KI-Websites

Beliebte Länder-Rankings

Vereinigte Staaten

KI-Websites, die bei US-Nutzern am beliebtesten sind

China

KI-Websites, die bei chinesischen Nutzern am beliebtesten sind

Indien

KI-Websites, die bei indischen Nutzern am beliebtesten sind

Brasilien

KI-Websites, die bei brasilianischen Nutzern am beliebtesten sind

Beliebte Kategorie-Rankings

Bildgenerierung

Ranking der Gesamtbesuche von KI-Bildgenerierungs-Websites

Persönlicher Assistent

Ranking der Gesamtbesuche von KI-Websites für persönliche Assistenten

Charaktergenerierung

Ranking der Gesamtbesuche von KI-Websites zur Charaktergenerierung

Videogenerierung

Ranking der Gesamtbesuche von KI-Videogenerierungs-Websites

Beliebte Open-Source-Datenrankings

KI-Projektranking

GitHub beliebte KI-Projekte nach Gesamt-Stars

KI-Projektwachstumsranking

GitHub beliebte KI-Projekte nach Wachstumsrate

KI-Entwickler-Ranking

GitHub beliebtes KI-Entwickler-Ranking

KI-Organisationsranking

GitHub beliebtes KI-Organisationsranking

Beliebte Open-Source-Kategorien

Deepseek

GitHub beliebte Deepseek Open-Source-Projekte

TTS

GitHub beliebte TTS Open-Source-Projekte

LLM

GitHub beliebte LLM Open-Source-Projekte

ChatGPT

GitHub beliebte ChatGPT Open-Source-Projekte

KI-Open-Source-Projektbibliothek

Überblick

Überblick über GitHub beliebte KI-Open-Source-Projekte

Produktbibliothek Tool Navigation

Wikimedia-Stiftung warnt vor Bandbreitenbelastung durch KI-Crawler

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Apr 3, 2025

In den letzten Jahren ist der Bandbreitenverbrauch von Wikimedia-Projekten durch Webcrawler aufgrund des rasanten Fortschritts der künstlichen Intelligenz (KI) stetig gestiegen. Vertreter der Wikimedia Foundation gaben an, dass der Bandbreitenverbrauch für Multimedia-Dateien seit Januar 2024 um 50 % zugenommen hat. Dieser Anstieg ist hauptsächlich auf automatisierte Programme zurückzuführen, die kontinuierlich Inhalte aus dem Open-Source-Bildarchiv von Wikimedia für das Training von KI-Modellen extrahieren.

Wikipedia

Birgit Mueller, Chris Danis und Giuseppe Lavagetto von der Wikimedia Foundation erklärten in einem offenen Brief, dass dieser Bandbreitenanstieg nicht von menschlichen Nutzern, sondern von der hohen Nachfrage von Roboterprogrammen herrührt. Sie betonten: „Unsere Infrastruktur ist darauf ausgelegt, die Spitzenlasten menschlicher Nutzer während von großem Interesse geprägter Ereignisse zu bewältigen, aber der durch Crawler erzeugte Datenverkehr ist beispiellos und birgt für uns immer größere Risiken und Kosten.“

Laut Wikimedia-Statistiken werden etwa 65 % des kostenintensiven Datenverkehrs von diesen Crawlern generiert, obwohl Crawler nur 35 % der Seitenaufrufe ausmachen. Dies liegt daran, dass Wikimedias Caching-System beliebte Inhalte weltweit auf verschiedene Rechenzentren verteilt, um die Leistung zu verbessern. Crawler berücksichtigen jedoch bei der Seitenabfrage nicht die Popularität der Inhalte und fordern daher auch weniger beliebte Inhalte an. Dies führt dazu, dass die Inhalte aus dem zentralen Rechenzentrum abgerufen werden müssen, was mehr Rechenressourcen verbraucht.

Im vergangenen Jahr wurde das Problem des übermäßigen Crawlens bereits von mehreren Open-Source-Projekten thematisiert. So äußerten beispielsweise der Git-Hosting-Dienst Sourcehut, der Diaspora-Entwickler Dennis Schubert, die Reparatur-Website iFixit und ReadTheDocs ihre Unzufriedenheit. Sie alle berichteten von der übermäßigen Nachfrage der KI-Crawler beim Abrufen von Inhalten.

Die Wikimedia Foundation hat sich in ihrer Jahresplanung 2025/2026 das Ziel gesetzt, „den durch Crawler generierten Datenverkehr zu reduzieren“. Geplant ist eine Reduzierung der Anforderungsrate um 20 % und des Bandbreitenverbrauchs um 30 %. Man möchte die Nutzererfahrung für menschliche Nutzer priorisieren und die Wikimedia-Projekte und -Mitwirkenden unterstützen.

Viele Websites erkennen zwar an, dass die Bereitstellung von Bandbreite für Crawler zum Geschäft gehört, aber mit der Verbreitung von generativer KI wie ChatGPT wird das Crawling-Verhalten immer aggressiver und kann sogar die Existenz der Quellwebsites gefährden. Die Wikimedia Foundation räumt ein, dass Wikipedia und Wikimedia Commons zwar für das Training von Machine-Learning-Modellen sehr wichtig sind, aber die Bedürfnisse menschlicher Nutzer priorisiert werden müssen.

Um dieser Herausforderung zu begegnen, wurden bereits einige Tools entwickelt, um dem übermäßigen Crawling entgegenzuwirken, darunter die Data-Poisoning-Projekte Glaze, Nightshade und ArtShield sowie die Webtools Kudurru und Nepenthes. Die bestehenden Robots.txt-Regeln können das Verhalten dieser Crawler jedoch nicht vollständig effektiv einschränken, insbesondere da sie sich als andere Crawler tarnen können, um Sperren zu umgehen.

Wichtigste Punkte:
🌐 Der Bandbreitenverbrauch von Wikimedia durch Crawler ist um 50 % gestiegen, hauptsächlich durch das Herunterladen von Inhalten für KI-Modelle.
🤖 Etwa 65 % des kostenintensiven Datenverkehrs werden von Crawlern generiert, obwohl Crawler nur 35 % der Seitenaufrufe ausmachen.
📉 Die Wikimedia Foundation plant für 2025/2026 eine Reduzierung des durch Crawler generierten Datenverkehrs und priorisiert die Bedürfnisse menschlicher Nutzer.

KI-Modelle Wikimedia Webcrawler Bandbreitenbelastung

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe