Récemment, Oleksandr Tomchuk, PDG de Trilegangers, a reçu une alerte indiquant que le site de commerce électronique de son entreprise était hors service. Après enquête, il a découvert que le coupable était un robot d'OpenAI, qui tentait inlassablement de scraper l'intégralité de son vaste site web. Ce site héberge plus de 65 000 produits, chacun ayant sa propre page avec au moins trois photos. OpenAI a envoyé « des dizaines de milliers » de requêtes serveur pour tenter de télécharger tout le contenu : des centaines de milliers de photos et leurs descriptions détaillées.
Tomchuk a déclaré que le crawler d'OpenAI était en train de détruire leur site web, ce qui constituait essentiellement une attaque par déni de service (DDoS). L'entreprise vend des fichiers d'objets 3D ainsi que des photos (des mains, des cheveux, de la peau et du corps entier) aux artistes 3D, aux créateurs de jeux vidéo et à toute personne ayant besoin de reproduire numériquement les traits humains réels.
Le site web de Trilegangers est son activité principale. L'entreprise a passé plus de dix ans à construire ce qu'elle qualifie de plus grande base de données de « doubles numériques humains » sur le web, c'est-à-dire des fichiers d'images 3D scannés à partir de modèles humains réels.
L'équipe de Tomchuk, basée en Ukraine, a également obtenu une autorisation à Tampa, en Floride (États-Unis). Son site web comporte une page de conditions d'utilisation interdisant aux robots de capturer ses images sans autorisation. Mais cela n'a pas suffi. Le site devait utiliser un fichier robot.txt correctement configuré, avec des balises indiquant clairement au robot GPTBot d'OpenAI de ne pas perturber le site.
Le fichier robot.txt, également connu sous le nom de protocole d'exclusion des robots, est conçu pour indiquer aux moteurs de recherche quel contenu ne doit pas être récupéré lors de l'indexation des pages web. OpenAI indique sur sa page d'informations qu'il respecte ces fichiers lorsqu'ils sont configurés avec un ensemble de balises d'exclusion, mais il avertit également que son robot peut mettre jusqu'à 24 heures à reconnaître les mises à jour du fichier robot.txt.
Tomchuk affirme que si un site web n'utilise pas correctement le fichier robot.txt, OpenAI et d'autres entreprises considèrent qu'elles peuvent récupérer des données à volonté. Ce n'est pas un système optionnel.
Pire encore, Trilegangers n'a pas seulement été mis hors ligne par le robot d'OpenAI pendant les heures de travail américaines, mais Tomchuk s'attend également à une augmentation significative de sa facture AWS en raison de toute l'activité CPU et des téléchargements effectués par le robot.
Le fichier robot.txt n'est pas non plus une solution miracle. Les entreprises d'IA respectent ce fichier sur une base volontaire. L'été dernier, une autre start-up d'IA, Perplexity, a fait l'objet d'une enquête de Wired suite à des preuves suggérant qu'elle ne respectait pas ce fichier, un événement assez notable.
Tomchuk a déclaré qu'il n'avait pas trouvé de moyen de contacter OpenAI pour lui poser des questions. OpenAI n'a pas répondu à la demande de commentaire de TechCrunch. OpenAI n'a pas encore fourni l'outil de désinscription qu'il a promis depuis longtemps.
Pour Triplegangers, il s'agit d'un problème particulièrement épineux. « Dans notre activité, les questions de droits sont assez sérieuses, car nous scannons de vraies personnes », a-t-il déclaré. Selon des lois comme le RGPD européen, « ils ne peuvent pas simplement prendre des photos de n'importe qui sur Internet et les utiliser. »
Ironiquement, la voracité du robot d'OpenAI a permis à Triplegangers de prendre conscience de sa vulnérabilité. Il affirme que si le scraping avait été plus doux, Tomchuk n'aurait jamais rien su.
« C'est effrayant, car ces entreprises semblent exploiter une faille pour récupérer des données, en disant : "Si vous mettez à jour votre robot.txt avec nos balises, vous pouvez vous désinscrire", » a déclaré Tomchuk, mais cela laisse aux chefs d'entreprise la responsabilité de savoir comment les empêcher.
Il espère que d'autres petites entreprises en ligne sauront que la seule façon de savoir si un robot d'IA est en train de voler les actifs protégés par le droit d'auteur de leur site web est de le rechercher activement. Il n'est certainement pas le seul à être intimidé par les robots d'IA. D'autres propriétaires de sites web ont récemment confié à Business Insider comment les robots d'OpenAI avaient mis leurs sites web hors service et augmenté leurs frais AWS.
Ce problème devrait s'aggraver d'ici 2024. Une récente étude de la société de publicité numérique DoubleVerify a révélé que les crawlers et les scrapers d'IA ont entraîné une augmentation de 86 % du « trafic invalide général » en 2024, c'est-à-dire du trafic ne provenant pas d'utilisateurs réels.