À l'ère de l'IA pilotée par les données, l'acquisition de grandes quantités de données est devenue essentielle à l'entraînement de modèles performants. Cependant, les méthodes d'acquisition de données suscitent la controverse. Récemment, l'équipe de Claude a suscité l'indignation pour des pratiques de collecte de données inappropriées.
L'incident est survenu lorsque le robot d'exploration web de l'équipe Claude a effectué 1 million d'accès au serveur d'une entreprise en 24 heures, collectant du contenu web sans autorisation ni paiement. Ce comportement non seulement a ouvertement ignoré l'avis de « interdiction de crawling » du site web, mais a également accaparé une quantité importante de ressources serveur.
Malgré ses efforts de défense, la société victime n'a pas réussi à empêcher la collecte de données par l'équipe Claude. Le responsable de l'entreprise a exprimé sa colère sur les réseaux sociaux, condamnant le comportement de l'équipe Claude. De nombreux internautes ont également exprimé leur mécontentement, certains suggérant même le terme « vol » pour qualifier cet acte.
L'entreprise concernée est iFixit, un site web américain de commerce électronique et de guides d'utilisation. iFixit fournit des millions de pages de guides de réparation en ligne gratuits, couvrant les produits électroniques grand public et les gadgets. Cependant, iFixit a constaté que le robot d'exploration web de Claude, ClaudeBot, a lancé un grand nombre de requêtes en peu de temps, accédant à 10 To de fichiers en une journée et à 73 To au total au mois de mai.
Le PDG d'iFixit, Kyle Wiens, a déclaré que ClaudeBot avait « volé » toutes leurs données sans autorisation et avait accaparé les ressources du serveur. Bien qu'iFixit ait clairement indiqué sur son site web l'interdiction de la collecte de données non autorisée, l'équipe Claude semble avoir fait fi de cette interdiction.
Le comportement de l'équipe Claude n'est pas un cas isolé. En avril de cette année, le forum Linux Mint a également subi de fréquents accès de ClaudeBot, entraînant un ralentissement voire un plantage du forum. De plus, certains affirment que, outre Claude et GPT d'OpenAI, de nombreuses autres entreprises d'IA ignorent les paramètres robots.txt des sites web et collectent des données de force.
Face à cette situation, certains suggèrent aux propriétaires de sites web d'ajouter du contenu factice contenant des informations traçables ou uniques dans les pages afin de détecter si les données sont collectées illégalement. iFixit a effectivement mis en place cette mesure et a constaté que ses données étaient collectées non seulement par Claude, mais aussi par OpenAI.
Cet incident a suscité un large débat sur les pratiques de collecte de données des entreprises d'IA. D'une part, le développement de l'IA nécessite effectivement un grand nombre de données ; d'autre part, la collecte de données doit respecter les droits et les réglementations des propriétaires de sites web. Trouver un équilibre entre le progrès technologique et la protection des droits d'auteur est un défi pour toute l'industrie.