Recientemente, una investigación descubrió que cientos de sitios web intentaron bloquear a la empresa de inteligencia artificial Anthropic de rastrear su contenido, pero terminaron bloqueando robots incorrectos debido a instrucciones obsoletas. Este fenómeno destaca las dificultades que enfrentan actualmente los propietarios de sitios web al lidiar con el cambiante ecosistema de rastreadores de IA.
Según el operador anónimo de Dark Visitors, un sitio web que rastrea rastreadores web, muchos sitios web están bloqueando dos robots de Anthropic que la empresa ya no utiliza: "ANTHROPIC-AI" y "CLAUDE-WEB". Simultáneamente, sin saberlo, permiten el acceso al verdadero rastreador de la compañía, "CLAUDEBOT". Esto se debe principalmente a que los propietarios de los sitios web copian y pegan instrucciones obsoletas en sus archivos robots.txt, mientras que las empresas de IA lanzan continuamente rastreadores con nuevos nombres.
Nota de la fuente: La imagen fue generada por IA, con licencia de Midjourney.
Esta situación caótica no se limita a Anthropic. El operador de Dark Visitors señala que gigantes tecnológicos como Apple y Meta también han añadido recientemente nuevos proxies, haciendo casi imposible para los propietarios de sitios web mantenerse al día manualmente con estos cambios. Más preocupante aún es que algunas empresas de IA han sido descubiertas rastreando sitios web que no deberían rastrear de forma encubierta, o ignorando directamente las instrucciones del archivo robots.txt.
Esta situación ha provocado una serie de problemas. Algunos sitios web optan por bloquear completamente los rastreadores, o solo permiten el acceso a unos pocos rastreadores específicos, lo que puede afectar a la indexación de los motores de búsqueda, los archivos de Internet y la investigación académica. Al mismo tiempo, algunos sitios web se enfrentan a la presión técnica y económica del acceso masivo de los rastreadores de IA. Por ejemplo, el sitio web de manuales de reparación iFixit informó que el rastreador de Anthropic accedió a su sitio web casi un millón de veces en un solo día. Otro proveedor de servicios, Read the Docs, declaró que un rastreador accedió a 10 TB de archivos en un día, lo que provocó altos costos de ancho de banda.
Un estudio de la Iniciativa de Procedencia de Datos (Data Provenance Initiative) revela aún más la confusión generalizada que enfrentan los creadores de contenido y los propietarios de sitios web al intentar bloquear el entrenamiento de herramientas de IA. El estudio señala que la responsabilidad de bloquear las herramientas de rastreo de IA recae totalmente en los propietarios de los sitios web, y el creciente y frecuente cambio en el número de rastreadores hace que esta tarea sea excepcionalmente difícil.
Ante esta compleja situación, los expertos recomiendan a los administradores de sitios web que bloqueen activamente los rastreadores de IA sospechosos, incluso si esto puede afectar a algunos proxies inexistentes. Al mismo tiempo, algunos predicen que más creadores trasladarán su contenido a muros de pago para evitar el rastreo sin restricciones.