En la era de la IA impulsada por datos, la obtención de grandes cantidades de datos se ha convertido en la clave para entrenar modelos potentes. Sin embargo, la forma de obtener estos datos ha generado controversia. Recientemente, el equipo de Claude ha provocado la indignación pública por sus prácticas de recopilación de datos inapropiadas.

El incidente comenzó cuando el rastreador web del equipo de Claude realizó 1 millón de accesos a los servidores de una empresa en 24 horas, extrayendo contenido del sitio web sin pagar. Esta acción no solo ignoró descaradamente el aviso de "prohibido rastrear" del sitio web, sino que también consumió una gran cantidad de recursos del servidor.

A pesar de los esfuerzos de la empresa afectada por defenderse, no pudo detener la extracción de datos del equipo de Claude. El responsable de la empresa expresó su indignación en las redes sociales, denunciando la conducta del equipo de Claude. Muchos usuarios de internet también manifestaron su descontento, y algunos incluso sugirieron usar la palabra "robo" para describir este comportamiento.

image.png

La empresa involucrada es iFixit, un sitio web estadounidense de comercio electrónico y guías de reparación. iFixit ofrece millones de páginas de guías de reparación online gratuitas que cubren productos electrónicos de consumo y gadgets. Sin embargo, iFixit descubrió que el programa rastreador web de Claude, ClaudeBot, realizó una gran cantidad de solicitudes en poco tiempo, accediendo a 10 TB de archivos en un día y a un total de 73 TB durante todo el mes de mayo.

El CEO de iFixit, Kyle Wiens, afirmó que ClaudeBot "robó" todos sus datos sin permiso y consumió recursos del servidor. A pesar de que iFixit declaró explícitamente en su sitio web la prohibición de la extracción de datos no autorizada, el equipo de Claude pareció ignorarlo.

El comportamiento del equipo de Claude no es un caso aislado. En abril de este año, el foro de Linux Mint también sufrió accesos frecuentes de ClaudeBot, lo que provocó que el foro funcionara lentamente o incluso se bloqueara. Además, se ha señalado que, además de Claude y GPT de OpenAI, muchas otras empresas de IA están ignorando la configuración de robots.txt de los sitios web y extrayendo datos por la fuerza.

Ante esta situación, se sugiere a los propietarios de sitios web que añadan contenido falso con información rastreable o única en las páginas para detectar si los datos se están extrayendo ilegalmente. iFixit ya ha tomado esta medida y ha descubierto que sus datos no solo fueron extraídos por Claude, sino también por OpenAI.

Este incidente ha generado un amplio debate sobre las prácticas de extracción de datos de las empresas de IA. Por un lado, el desarrollo de la IA requiere una gran cantidad de datos; por otro lado, la extracción de datos debe respetar los derechos y las normas de los propietarios de los sitios web. Encontrar un equilibrio entre el avance tecnológico y la protección de los derechos de autor es un desafío que debe afrontar toda la industria.