Recentemente, Oleksandr Tomchuk, CEO da Trilegangers, recebeu um alerta de que o site de comércio eletrônico de sua empresa estava fora do ar. Após investigação, ele descobriu que o culpado era um robô da OpenAI que tentava incansavelmente raspar todo o seu vasto site. O site possui mais de 65.000 produtos, cada um com sua própria página, com pelo menos três fotos. A OpenAI enviou "dezenas de milhares" de solicitações de servidor, tentando baixar todo o conteúdo: centenas de milhares de fotos e suas descrições detalhadas.
Tomchuk disse que o rastreador da OpenAI estava destruindo seu site, essencialmente um ataque DDoS. A empresa vende arquivos de objetos 3D, juntamente com fotos (de mãos, cabelos, pele e corpo inteiro) para artistas 3D, criadores de videogames e qualquer pessoa que precise reproduzir digitalmente características humanas reais.
O site da Trilegangers é seu negócio. A empresa levou mais de uma década para construir o que afirma ser o maior banco de dados de "corpos digitais humanos" da web: arquivos de imagens 3D escaneados de modelos humanos reais.
A equipe de Tomchuk tem sede na Ucrânia, mas também tem permissão em Tampa, Flórida, e seu site possui uma página de termos de serviço que proíbe robôs de capturar suas imagens sem permissão. Mas isso não fez diferença. O site precisava usar um arquivo robots.txt configurado corretamente, com tags que explicitamente instruíssem o robô GPTBot da OpenAI a não incomodar o site.
O robots.txt, também conhecido como protocolo de exclusão de robôs, foi criado para informar os mecanismos de pesquisa quais partes de um site não devem ser rastreadas ao indexar páginas da web. A OpenAI afirma em sua página de informações que respeita esses arquivos quando um conjunto de tags de não rastrear é configurado, mas também alerta que seus robôs podem levar até 24 horas para reconhecer um arquivo robots.txt atualizado.
Tomchuk disse que, se um site não usa o robots.txt corretamente, a OpenAI e outras empresas assumem que podem raspar dados à vontade. Não é um sistema optativo.
Para piorar as coisas, a Trilegangers não apenas foi forçada a desligar seu site durante o horário comercial dos EUA pelo robô da OpenAI, mas Tomchuk também espera um aumento significativo na conta da AWS devido a toda a atividade de CPU e download do robô.
O robots.txt também não é uma solução perfeita. As empresas de IA o respeitam voluntariamente. No verão passado, outra startup de IA, a Perplexity, foi alvo de uma investigação da Wired por evidências de que não estava cumprindo o protocolo, um incidente bastante notório.
Tomchuk disse que não encontrou uma maneira de entrar em contato com a OpenAI para fazer perguntas. A OpenAI não respondeu ao pedido de comentário do TechCrunch. A OpenAI ainda não forneceu a ferramenta de exclusão que prometeu há muito tempo.
Para a Trilegangers, esse é um problema particularmente espinhoso. "No ramo em que atuamos, as questões de direitos são bastante sérias, pois escaneamos pessoas reais", disse ele. De acordo com leis como o GDPR europeu, "eles não podem simplesmente tirar fotos de qualquer pessoa na internet e usá-las."
Ironicamente, a ganância do robô da OpenAI fez a Trilegangers perceber o quão exposta ela era. Ele disse que, se tivesse raspado de forma mais suave, Tomchuk nunca teria sabido.
"É assustador, porque essas empresas parecem estar explorando uma brecha para raspar dados, dizendo 'se você atualizar seu robots.txt com nossas tags, você pode optar por sair'", disse Tomchuk, mas isso deixa os proprietários de empresas responsáveis por descobrir como impedi-los.
Ele espera que outras pequenas empresas online saibam que a única maneira de descobrir se um robô de IA está roubando os ativos de direitos autorais de um site é procurando ativamente. Ele certamente não é o único a ser intimidado por robôs de IA. Outros proprietários de sites disseram recentemente ao Business Insider como os robôs da OpenAI derrubaram seus sites e aumentaram suas taxas da AWS.
Em 2024, o problema piorará. Uma pesquisa recente da DoubleVerify, uma empresa de publicidade digital, descobriu que os rastreadores e ferramentas de rastreamento de IA levaram a um aumento de 86% no "tráfego inválido geral" em 2024, ou seja, tráfego que não vem de usuários reais.