Selon le magazine Wired, Amazon Web Services (AWS) enquête sur Perplexity AI, une start-up spécialisée dans la recherche par intelligence artificielle, pour violation présumée des conditions d'utilisation d'AWS, accusée d'avoir récupéré du contenu de sites web qui tentaient d'empêcher cela.

Perplexity AI, une start-up soutenue par le fonds familial de Jeff Bezos et Nvidia, a récemment été évaluée à 3 milliards de dollars. Wired a constaté que la société semblait s'appuyer sur la récupération de contenu de sites web dont l'accès était interdit par le protocole Robots Exclusion. Ce protocole est une norme web qui indique quelles pages ne doivent pas être accessibles aux robots et aux crawlers automatisés. Bien que ce protocole ne soit pas juridiquement contraignant, la plupart des entreprises le respectent traditionnellement.

AWS, Amazon, services cloud, Amazon, cloud computing, serveurs

Un porte-parole d'AWS a déclaré que les conditions d'utilisation de l'entreprise interdisaient à ses clients d'utiliser ses services pour mener des activités illégales, et que les clients étaient responsables du respect des conditions et de toutes les lois applicables. Les clients d'AWS doivent respecter la norme robots.txt lorsqu'ils effectuent un scraping de sites web.

L'enquête a révélé que Perplexity pouvait accéder à un serveur via des adresses IP non divulguées, ce serveur ayant accédé à des actifs de Condé Nast des centaines de fois au cours des trois derniers mois, apparemment pour récupérer du contenu dont l'accès était interdit. Des porte-parole du Guardian, de Forbes et du New York Times ont également signalé des situations similaires.

Aravind Srinivas, PDG de Perplexity, a déclaré que le scraping détecté avait été effectué par une société tierce fournissant des services de scraping et d'indexation web, mais il a refusé de révéler le nom de cette société. Sara Platnick, porte-parole de Perplexity, a déclaré que la société avait répondu aux questions d'Amazon et affirmé que son PerplexityBot respectait robots.txt, mais qu'il ignorait ce protocole lorsque les utilisateurs saisissaient une URL spécifique.

Jason Kint, PDG de Digital Content Next, une association professionnelle du secteur du contenu numérique, estime que si les accusations portées contre Perplexity sont fondées, la société a violé plusieurs principes visant à prévenir les violations potentielles du droit d'auteur. Il souligne que les entreprises d'intelligence artificielle ne devraient pas, par défaut, obtenir et utiliser le contenu des éditeurs sans autorisation.

Cet événement suscite actuellement une attention et un débat importants sur les méthodes d'acquisition de données des entreprises d'IA. Le secteur attend avec impatience la publication des résultats de l'enquête d'AWS et les éventuelles mesures qui pourraient être prises contre Perplexity.