El caos de los rastreadores de IA: Los intentos de bloqueo de sitios web resultan inútiles

Recientemente, una investigación descubrió que cientos de sitios web intentaron bloquear a la empresa de inteligencia artificial Anthropic de rastrear su contenido, pero terminaron bloqueando robots incorrectos debido a instrucciones obsoletas. Este fenómeno destaca las dificultades que enfrentan actualmente los propietarios de sitios web al lidiar con el cambiante ecosistema de rastreadores de IA.

Según el operador anónimo de Dark Visitors, un sitio web que rastrea rastreadores web, muchos sitios web están bloqueando dos robots de Anthropic que la empresa ya no utiliza: "ANTHROPIC-AI" y "CLAUDE-WEB". Simultáneamente, sin saberlo, permiten el acceso al verdadero rastreador de la compañía, "CLAUDEBOT". Esto se debe principalmente a que los propietarios de los sitios web copian y pegan instrucciones obsoletas en sus archivos robots.txt, mientras que las empresas de IA lanzan continuamente rastreadores con nuevos nombres.

Precio de las acciones de análisis de datos

Nota de la fuente: La imagen fue generada por IA, con licencia de Midjourney.

Esta situación caótica no se limita a Anthropic. El operador de Dark Visitors señala que gigantes tecnológicos como Apple y Meta también han añadido recientemente nuevos proxies, haciendo casi imposible para los propietarios de sitios web mantenerse al día manualmente con estos cambios. Más preocupante aún es que algunas empresas de IA han sido descubiertas rastreando sitios web que no deberían rastrear de forma encubierta, o ignorando directamente las instrucciones del archivo robots.txt.

Esta situación ha provocado una serie de problemas. Algunos sitios web optan por bloquear completamente los rastreadores, o solo permiten el acceso a unos pocos rastreadores específicos, lo que puede afectar a la indexación de los motores de búsqueda, los archivos de Internet y la investigación académica. Al mismo tiempo, algunos sitios web se enfrentan a la presión técnica y económica del acceso masivo de los rastreadores de IA. Por ejemplo, el sitio web de manuales de reparación iFixit informó que el rastreador de Anthropic accedió a su sitio web casi un millón de veces en un solo día. Otro proveedor de servicios, Read the Docs, declaró que un rastreador accedió a 10 TB de archivos en un día, lo que provocó altos costos de ancho de banda.

Un estudio de la Iniciativa de Procedencia de Datos (Data Provenance Initiative) revela aún más la confusión generalizada que enfrentan los creadores de contenido y los propietarios de sitios web al intentar bloquear el entrenamiento de herramientas de IA. El estudio señala que la responsabilidad de bloquear las herramientas de rastreo de IA recae totalmente en los propietarios de los sitios web, y el creciente y frecuente cambio en el número de rastreadores hace que esta tarea sea excepcionalmente difícil.

Ante esta compleja situación, los expertos recomiendan a los administradores de sitios web que bloqueen activamente los rastreadores de IA sospechosos, incluso si esto puede afectar a algunos proxies inexistentes. Al mismo tiempo, algunos predicen que más creadores trasladarán su contenido a muros de pago para evitar el rastreo sin restricciones.

Noticias de IA

El caos de los rastreadores de IA: Los intentos de bloqueo de sitios web resultan inútiles

AIbase基地

Noticias de IA relacionadas recomendadas

El Departamento de Justicia de EE. UU. exige a Google que venda Chrome y relaje las restricciones a las inversiones en IA

Tongyi App lanza el modelo de inteligencia artificial Qianwen QwQ-32B: Experiencia de IA mejorada continuamente

Manus, el asistente de IA multifuncional creado por el equipo de Monica, es un éxito rotundo. ¿Cómo conseguir un código de invitación para Manus?

Quantexa recauda 175 millones de dólares, alcanzando una valoración de 2600 millones y reforzando sus negocios de análisis de datos e inteligencia artificial