Laut einem Bericht des Magazins Wired untersucht Amazon Web Services (AWS) das KI-Such-Startup Perplexity AI wegen des Verdachts auf Verstoß gegen die AWS-Nutzungsbedingungen. Perplexity AI soll Inhalte von Websites abgerufen haben, die dies explizit untersagt haben.
Perplexity AI, ein Startup, das von der Jeff Bezos Family Foundation und Nvidia unterstützt wird und kürzlich mit 3 Milliarden US-Dollar bewertet wurde, scheint sich laut Wired auf das Scrapen von Inhalten zu verlassen, deren Zugriff durch die Robots Exclusion Protocol (Robots.txt) verboten ist. Robots.txt ist ein Webstandard, der angibt, welche Seiten nicht von automatisierten Bots und Crawlern besucht werden sollen. Obwohl dieser Standard nicht rechtlich bindend ist, wird er traditionell von den meisten Unternehmen befolgt.
Ein AWS-Sprecher erklärte, dass die Nutzungsbedingungen des Unternehmens es Kunden verbieten, die Dienste für illegale Aktivitäten zu nutzen, und dass die Kunden für die Einhaltung der Bedingungen und aller geltenden Gesetze verantwortlich sind. AWS-Kunden müssen beim Crawlen von Websites den robots.txt-Standard einhalten.
Die Untersuchung ergab, dass Perplexity über eine nicht öffentlich bekannte IP-Adresse auf einen Server zugreifen konnte, der in den letzten drei Monaten mindestens Hunderte Male auf Vermögenswerte von Condé Nast zugegriffen hat, offensichtlich um verbotene Inhalte zu scrapen. Ähnliche Fälle wurden auch von Sprechern des Guardian, Forbes und der New York Times bestätigt.
Perplexity-CEO Aravind Srinivas erklärte, dass das festgestellte Scraping von einem Drittanbieter durchgeführt wurde, der Webscraping- und Indexierungsdienste anbietet, verweigerte aber die Nennung des Unternehmensnamens. Perplexity-Sprecherin Sara Platnick sagte, das Unternehmen habe auf die Anfrage von Amazon reagiert und erklärt, dass PerplexityBot robots.txt respektiert, dieses Protokoll aber ignoriert, wenn Benutzer eine bestimmte URL eingeben.
Jason Kint, CEO des Branchenverbands Digital Content Next, ist der Ansicht, dass Perplexity, falls die Vorwürfe zutreffen, gegen mehrere Grundsätze zum Schutz vor potenziellen Urheberrechtsverletzungen verstoßen hat. Er betonte, dass KI-Unternehmen standardmäßig keine Inhalte von Verlagen ohne Erlaubnis abrufen und verwenden sollten.
Der Vorfall hat eine breite Diskussion über die Datenbeschaffungsmethoden von KI-Unternehmen ausgelöst. Die Branche erwartet nun die Veröffentlichung der Ergebnisse der AWS-Untersuchung und mögliche weitere Maßnahmen gegen Perplexity.