En los últimos años, con el rápido desarrollo de la inteligencia artificial, la presión de ancho de banda sobre los proyectos de Wikimedia causada por los rastreadores web ha aumentado considerablemente. Representantes de la Fundación Wikimedia señalan que, desde enero de 2024, el consumo de ancho de banda para servir archivos multimedia ha aumentado un 50%. Este crecimiento se debe principalmente a programas automatizados que extraen continuamente contenido de la biblioteca de imágenes de licencia abierta de Wikimedia para entrenar modelos de IA.

Wikipedia

Birgit Mueller, Chris Danis y Giuseppe Lavagetto, miembros del personal de la Fundación Wikimedia, expresaron en una carta pública que este aumento de ancho de banda no se debe a usuarios humanos, sino a la gran demanda de programas robóticos. Destacan: "Nuestra infraestructura está diseñada para soportar picos de tráfico de usuarios humanos durante eventos de gran interés, pero el tráfico generado por los rastreadores es sin precedentes y nos genera cada vez más riesgos y costos."

Según las estadísticas de Wikimedia, aproximadamente el 65% del tráfico de contenido de alto costo es generado por estos rastreadores, a pesar de que los rastreadores solo representan el 35% de las visitas a páginas. Esto se debe a que el esquema de caché de Wikimedia distribuye el contenido popular a centros de datos de todo el mundo para mejorar el rendimiento, mientras que los rastreadores no tienen en cuenta la popularidad del contenido al acceder a las páginas, por lo que solicitan contenido menos popular, lo que obliga a obtenerlo del centro de datos principal, consumiendo más recursos informáticos.

En el último año, el problema de la sobreextracción de rastreadores web ha llamado la atención de varios proyectos de código abierto. Por ejemplo, el servicio de alojamiento Git Sourcehut, el desarrollador de Diaspora Dennis Schubert, el sitio web de reparación iFixit y ReadTheDocs han expresado su descontento. Todos ellos reflejan la excesiva demanda de los rastreadores de IA en la extracción de contenido.

La Fundación Wikimedia ha propuesto el objetivo de "reducir el tráfico generado por los rastreadores" en su planificación anual 2025/2026, con el plan de reducir la tasa de solicitudes en un 20% y el uso de ancho de banda en un 30%. Esperan poder priorizar la experiencia del usuario humano y apoyar los proyectos y contribuyentes de Wikimedia.

Si bien muchos sitios web reconocen que proporcionar ancho de banda a los rastreadores es parte del negocio, con la proliferación de IA generativa como ChatGPT, el comportamiento de extracción de los rastreadores se ha vuelto más agresivo, e incluso puede amenazar la existencia de los sitios web de origen. La Fundación Wikimedia reconoce que, aunque Wikipedia y Wikimedia Commons son muy importantes para el entrenamiento de modelos de aprendizaje automático, deben priorizar las necesidades de los usuarios humanos.

Para abordar este desafío, han surgido algunas herramientas para combatir la sobreextracción de rastreadores, como los proyectos de envenenamiento de datos Glaze, Nightshade y ArtShield, y las herramientas web Kudurru, Nepenthes, etc. Sin embargo, el protocolo robots.txt existente no es completamente efectivo para limitar el comportamiento de estos rastreadores, especialmente porque pueden disfrazarse de otros rastreadores para evitar el bloqueo.

Puntos clave:

🌐 El consumo de ancho de banda de Wikimedia por rastreadores ha aumentado un 50%, principalmente debido a la extracción de contenido para modelos de IA.

🤖 Aproximadamente el 65% del tráfico de contenido de alto costo es generado por rastreadores, aunque estos solo representan el 35% de las visitas a páginas.

📉 La Fundación Wikimedia planea reducir el tráfico generado por rastreadores en 2025/2026, priorizando las necesidades de los usuarios humanos.