Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

Fundação Wikimedia alerta sobre a sobrecarga de largura de banda causada por bots de IA

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Apr 3, 2025

Nos últimos anos, com o rápido desenvolvimento da tecnologia de inteligência artificial, a pressão de largura de banda causada por crawlers de web nos projetos Wikimedia tem aumentado significativamente. Representantes da Wikimedia Foundation apontaram que, desde janeiro de 2024, o consumo de largura de banda para servir arquivos multimídia aumentou 50%. Esse crescimento é principalmente devido a programas automatizados que continuamente extraem conteúdo da biblioteca de imagens de licença aberta da Wikimedia para treinamento de modelos de IA.

Wikipédia

Em uma carta aberta, os funcionários da Wikimedia Foundation, Birgit Mueller, Chris Danis e Giuseppe Lavagetto, afirmaram que esse aumento de largura de banda não se deve a usuários humanos, mas à forte demanda de programas robóticos. Eles enfatizaram: "Nossa infraestrutura é projetada para suportar picos de tráfego de usuários humanos durante eventos de alto interesse, mas o tráfego gerado por crawlers é sem precedentes, apresentando riscos e custos cada vez maiores para nós."

De acordo com as estatísticas da Wikimedia, cerca de 65% do tráfego de conteúdo de alto custo é gerado por esses crawlers, embora os crawlers representem apenas 35% das visualizações de páginas. Isso ocorre porque o esquema de cache da Wikimedia distribui conteúdo popular para data centers em todo o mundo para melhorar o desempenho, enquanto os crawlers não consideram a popularidade do conteúdo ao acessar páginas, portanto, solicitam conteúdo menos popular, o que exige que o conteúdo seja recuperado do data center central, consumindo mais recursos de computação.

No último ano, o problema da extração excessiva por crawlers tem chamado a atenção de vários projetos de código aberto. Por exemplo, o serviço de hospedagem Git Sourcehut, o desenvolvedor do Diaspora Dennis Schubert, o site de reparo iFixit e o ReadTheDocs expressaram sua insatisfação. Todos eles refletem a demanda excessiva demonstrada pelos crawlers de IA na extração de conteúdo.

Em seu planejamento anual de 2025/2026, a Wikimedia Foundation estabeleceu a meta de "reduzir o tráfego gerado por crawlers", planejando reduzir a taxa de solicitações em 20% e o uso de largura de banda em 30%. Eles esperam priorizar a experiência do usuário humano e apoiar os projetos e contribuidores da Wikimedia.

Embora muitos sites reconheçam que fornecer largura de banda para crawlers faz parte dos negócios, com a popularização de IAs generativas como o ChatGPT, o comportamento de extração dos crawlers tornou-se cada vez mais agressivo, podendo até ameaçar a existência do site de origem. A Wikimedia Foundation reconhece que, embora a Wikipédia e o Wikimedia Commons sejam muito importantes para o treinamento de modelos de aprendizado de máquina, eles devem priorizar as necessidades dos usuários humanos.

Para enfrentar esse desafio, surgiram algumas ferramentas para combater a extração excessiva por crawlers, como os projetos de envenenamento de dados Glaze, Nightshade e ArtShield, e as ferramentas da web Kudurru, Nepenthes etc. No entanto, os protocolos de robôs existentes (robots.txt) não são totalmente eficazes para restringir o comportamento desses crawlers, especialmente porque eles podem se disfarçar de outros crawlers para evitar bloqueios.

Destaques:
🌐 O consumo de largura de banda da Wikimedia por crawlers aumentou 50%, principalmente devido à extração de conteúdo por modelos de IA.
🤖 Cerca de 65% do tráfego de conteúdo de alto custo é gerado por crawlers, embora os crawlers representem apenas 35% das visualizações de páginas.
📉 A Wikimedia Foundation planeja reduzir o tráfego gerado por crawlers em 2025/2026, priorizando as necessidades dos usuários humanos.

Modelos de IA Wikimedia Web Scraping Sobrecarga de banda

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Caos de web scraping de IA; esforços de bloqueio de sites são inúteis

Uma investigação recente descobriu que centenas de sites tentaram bloquear a empresa de inteligência artificial Anthropic de raspar seu conteúdo, mas acabaram bloqueando robôs incorretos devido a instruções desatualizadas. Esse fenômeno destaca as dificuldades enfrentadas pelos proprietários de sites atualmente ao lidar com o ecossistema em constante mudança de web scrapers de IA.

Jul 30, 2024

1.8k