Im datengetriebenen Zeitalter der KI ist der Zugriff auf große Datenmengen zum Schlüssel für das Training leistungsstarker Modelle geworden. Die Art und Weise, wie diese Daten beschafft werden, ist jedoch umstritten. Kürzlich hat das Claude-Team durch unangemessenes Daten-Scraping für Empörung gesorgt.

Der Vorfall begann damit, dass der Crawler des Claude-Teams innerhalb von 24 Stunden 1 Million Zugriffe auf die Server eines Unternehmens tätigte und Website-Inhalte unbezahlt abfing. Dieses Vorgehen missachtete nicht nur dreist die „Kein Crawling“-Ankündigung der Website, sondern beanspruchte auch massiv Serverressourcen.

Das betroffene Unternehmen versuchte zwar, sich zu verteidigen, konnte das Daten-Scraping durch das Claude-Team aber letztendlich nicht verhindern. Der Unternehmensleiter äußerte seinen Unmut in den sozialen Medien und prangerte das Verhalten des Claude-Teams an. Viele Internetnutzer äußerten ebenfalls ihren Unmut, einige schlugen sogar vor, dieses Verhalten als „Diebstahl“ zu bezeichnen.

image.png

Das betroffene Unternehmen ist iFixit, eine amerikanische E-Commerce-Website und Anbieter von Reparaturhandbüchern. iFixit bietet Millionen von Seiten mit kostenlosen Online-Reparaturanleitungen für Unterhaltungselektronik und Gadgets an. iFixit stellte jedoch fest, dass der Crawler von Claude, ClaudeBot, innerhalb kurzer Zeit eine große Anzahl von Anfragen stellte, an einem Tag 10 TB an Daten abruf und im Mai insgesamt 73 TB abruf.

iFixits CEO Kyle Wiens erklärte, dass ClaudeBot ohne Erlaubnis alle ihre Daten „gestohlen“ und Serverressourcen in Anspruch genommen habe. Obwohl iFixit auf seiner Website ausdrücklich das unerlaubte Daten-Scraping untersagt, schien das Claude-Team dies zu ignorieren.

Das Verhalten des Claude-Teams ist kein Einzelfall. Im April dieses Jahres wurde auch das Linux Mint-Forum von häufigen Zugriffen von ClaudeBot heimgesucht, was zu Verlangsamungen und sogar zum Absturz des Forums führte. Darüber hinaus wird darauf hingewiesen, dass neben Claude und OpenAIs GPT auch viele andere KI-Unternehmen die robots.txt-Einstellungen von Websites ignorieren und Daten gewaltsam abrufen.

In dieser Situation wird Website-Betreibern vorgeschlagen, gefälschte Inhalte mit nachverfolgbaren oder eindeutigen Informationen auf ihren Seiten hinzuzufügen, um zu erkennen, ob Daten illegal abgerufen werden. iFixit hat diese Maßnahme tatsächlich bereits ergriffen und festgestellt, dass seine Daten nicht nur von Claude, sondern auch von OpenAI abgerufen wurden.

Dieser Vorfall hat eine breite Diskussion über das Daten-Scraping von KI-Unternehmen ausgelöst. Einerseits benötigt die KI-Entwicklung tatsächlich große Datenmengen; andererseits sollte das Daten-Scraping die Rechte und Vorschriften der Website-Betreiber respektieren. Wie man einen Ausgleich zwischen technologischem Fortschritt und Urheberrechtsschutz findet, ist eine Frage, die die gesamte Branche beschäftigen sollte.