Recientemente, Oleksandr Tomchuk, CEO de Trilegangers, recibió una alerta de que el sitio web de comercio electrónico de su empresa estaba caído. Tras una investigación, descubrió que el culpable era un bot de OpenAI que intentaba incansablemente rastrear todo su extenso sitio web. El sitio web cuenta con más de 65.000 productos, cada uno con su propia página y al menos tres fotos. OpenAI envió "decenas de miles" de solicitudes al servidor intentando descargar todo el contenido: cientos de miles de fotos y sus descripciones detalladas.
Tomchuk afirma que el rastreador de OpenAI estaba destrozando su sitio web, esencialmente un ataque DDoS. La empresa vende archivos de objetos 3D y fotos (desde manos hasta cabello, piel y cuerpo completo) a artistas 3D, creadores de videojuegos y cualquiera que necesite reproducir digitalmente las características humanas reales.
El sitio web de Trilegangers es su negocio. La empresa ha pasado más de una década construyendo lo que afirma ser la mayor base de datos de "dobles digitales humanos" en la red: archivos de imágenes 3D escaneados de modelos humanos reales.
El equipo de Tomchuk tiene su sede en Ucrania, pero también tiene licencia en Tampa, Florida, y su sitio web incluye una página de términos de servicio que prohíbe a los bots tomar sus imágenes sin permiso. Pero esto no hizo nada. El sitio web debía utilizar un archivo robot.txt correctamente configurado, con etiquetas que dijeran explícitamente al bot GPTBot de OpenAI que no molestara al sitio web.
El robot.txt, también conocido como protocolo de exclusión de robots, se creó para indicar a los motores de búsqueda qué contenido no deben rastrear al indexar páginas web. OpenAI indica en su página de información que respeta estos archivos cuando se configura su propio conjunto de etiquetas de prohibición de rastreo, pero también advierte que sus bots pueden tardar hasta 24 horas en reconocer los archivos robot.txt actualizados.
Tomchuk afirma que si un sitio web no utiliza correctamente el robot.txt, OpenAI y otras empresas asumen que pueden rastrear datos a voluntad. No es un sistema opcional.
Peor aún, Trilegangers no solo fue forzado a desconectarse por el bot de OpenAI durante el horario laboral estadounidense, sino que Tomchuk anticipa un aumento significativo en su factura de AWS debido a toda la actividad de CPU y descargas del bot.
El robot.txt tampoco es una solución infalible. Las empresas de IA lo cumplen voluntariamente. El verano pasado, otra startup de IA, Perplexity, fue objeto de una investigación de Wired por algunas pruebas que sugerían que Perplexity no lo estaba cumpliendo, un incidente bastante conocido.
Tomchuk afirma que no encontró una forma de contactar a OpenAI para preguntar. OpenAI no respondió a la solicitud de comentarios de TechCrunch. OpenAI aún no ha proporcionado las herramientas de exclusión voluntaria que prometió durante mucho tiempo.
Para Triplegangers, este es un problema particularmente espinoso. "En el negocio que tenemos, los derechos son bastante importantes, ya que escaneamos a personas reales", dice. Según leyes como el GDPR europeo, "no pueden simplemente tomar fotos de cualquiera en línea y usarlas".
Irónicamente, la voracidad del bot de OpenAI hizo que Triplegangers se diera cuenta de lo expuesto que estaba. Dice que si hubiera raspado más suavemente, Tomchuk nunca lo habría sabido.
"Es aterrador porque estas empresas parecen estar explotando una laguna para rastrear datos, diciendo 'si actualizas tu robot.txt con nuestras etiquetas, puedes optar por no participar'", dice Tomchuk, pero deja a los propietarios de empresas la responsabilidad de saber cómo detenerlos.
Quiere que otras pequeñas empresas online sepan que la única forma de descubrir si un bot de IA está robando los activos con derechos de autor de un sitio web es buscar activamente. Ciertamente no es el único que se siente intimidado por los bots de IA. Otros propietarios de sitios web le contaron recientemente a Business Insider cómo los bots de OpenAI destrozaron sus sitios web y aumentaron sus costos de AWS.
En 2024, este problema empeorará. Un estudio reciente de la empresa de publicidad digital DoubleVerify encontró que los rastreadores e instrumentos de rastreo de IA provocaron un aumento del 86% en el "tráfico inválido general" en 2024, es decir, tráfico que no proviene de usuarios reales.