Kürzlich erhielt Oleksandr Tomchuk, CEO von Trilegangers, eine Alarmmeldung: Die E-Commerce-Website seines Unternehmens war ausgefallen. Nach einer Untersuchung stellte er fest, dass der Übeltäter ein Roboter von OpenAI war, der unermüdlich versuchte, seine gesamte umfangreiche Website zu crawlen. Die Website umfasst über 65.000 Produkte, jedes mit einer eigenen Seite und mindestens drei Fotos. OpenAI schickte „Zehntausende“ von Serveranfragen, um den gesamten Inhalt, Hunderttausende von Fotos und deren detaillierte Beschreibungen herunterzuladen.
Tomchuk erklärte, dass der Crawler von OpenAI ihre Website zerstörte – im Wesentlichen ein DDoS-Angriff. Das Unternehmen verkauft 3D-Objektdateien und Fotos (von Händen, Haaren, Haut und dem ganzen Körper) an 3D-Künstler, Videospielentwickler und alle, die reale menschliche Merkmale digital reproduzieren müssen.
Die Website von Trilegangers ist ihr Geschäft. Das Unternehmen hat über zehn Jahre damit verbracht, die angeblich größte Datenbank für „digitale menschliche Doubles“ im Internet aufzubauen – 3D-Bilddateien, die von Scans realer menschlicher Modelle erstellt wurden.
Das Team von Tomchuk hat seinen Hauptsitz in der Ukraine, verfügt aber auch über eine Lizenz in Tampa, Florida, USA. Seine Website enthält eine Seite mit den Nutzungsbedingungen, die das unerlaubte Crawlen von Bildern durch Roboter verbietet. Das allein half jedoch nicht. Die Website musste eine korrekt konfigurierte robot.txt-Datei verwenden, deren Tags OpenAIs Roboter GPTBot klar anweisen, die Website nicht zu belästigen.
Die robot.txt, auch bekannt als Robots Exclusion Standard, wurde entwickelt, um Suchmaschinen mitzuteilen, welche Inhalte beim Indizieren von Webseiten nicht gecrawlt werden sollen. OpenAI gibt auf seiner Informationsseite an, dass es solche Dateien respektiert, wenn eine eigene Reihe von Crawl-Verboten konfiguriert ist, warnt aber auch davor, dass es bis zu 24 Stunden dauern kann, bis sein Roboter aktualisierte robot.txt-Dateien erkennt.
Tomchuk sagte, dass OpenAI und andere Unternehmen, wenn eine Website die robot.txt nicht korrekt verwendet, davon ausgehen, dass sie Daten nach Belieben crawlen können. Dies sei kein optionales System.
Schlimmer noch: Trilegangers wurde nicht nur während der amerikanischen Arbeitszeit durch den Roboter von OpenAI offline gezwungen, sondern Tomchuk erwartet auch eine erhebliche Erhöhung seiner AWS-Rechnung aufgrund der gesamten CPU- und Download-Aktivität des Roboters.
Die robot.txt ist auch keine Garantie. AI-Unternehmen halten sich freiwillig daran. Im vergangenen Sommer erregte ein Bericht von Wired über eine andere KI-Firma, Perplexity, Aufmerksamkeit, da es Beweise dafür gab, dass Perplexity sich nicht daran hielt.
Tomchuk sagte, er habe keine Möglichkeit gefunden, OpenAI zu kontaktieren und nachzufragen. OpenAI reagierte nicht auf die Bitte von TechCrunch um Stellungnahme. OpenAI hat bisher kein langfristig versprochenes Opt-out-Tool bereitgestellt.
Für Trilegangers ist dies ein besonders heikles Problem. „In unserem Geschäft sind die Rechtefragen ziemlich ernst, da wir echte Menschen scannen“, sagte er. Nach Gesetzen wie der europäischen DSGVO „dürfen sie nicht einfach Fotos von irgendjemandem im Internet aufnehmen und verwenden.“
Ironischerweise machte die Gier des OpenAI-Roboters Trilegangers bewusst, wie exponiert es war. Er sagte, wenn es sanfter gecrawlt hätte, hätte Tomchuk es nie bemerkt.
„Das ist beängstigend, denn diese Unternehmen scheinen eine Lücke auszunutzen, um Daten zu crawlen, und sagen ‚Wenn Sie Ihre robot.txt mit unseren Tags aktualisieren, können Sie sich abmelden‘“, sagte Tomchuk, aber das überlässt es den Unternehmen, herauszufinden, wie sie sie stoppen können.
Er hofft, dass andere kleine Online-Unternehmen wissen, dass die einzige Möglichkeit, herauszufinden, ob KI-Roboter urheberrechtlich geschützte Vermögenswerte von Websites stehlen, darin besteht, aktiv danach zu suchen. Er ist sicherlich nicht der Einzige, der von KI-Robotern eingeschüchtert wird. Andere Website-Besitzer berichteten kürzlich gegenüber Business Insider, wie OpenAI-Roboter ihre Websites lahmlegten und ihre AWS-Kosten erhöhten.
Bis 2024 wird sich dieses Problem verschärfen. Eine aktuelle Studie des digitalen Werbeunternehmens DoubleVerify ergab, dass KI-Crawler und -Scraping-Tools zu einem Anstieg des „Invalid Traffic“ (IVT) um 86 % im Jahr 2024 führten – also Traffic, der nicht von echten Nutzern stammt.