O projeto de web crawler de código aberto Crawl4 AI lançou recentemente a versão v0.4.1, trazendo várias atualizações importantes. A mais notável é a adição do modo de texto (Text-Only Mode), que otimiza a estratégia de carregamento de recursos, aumentando a eficiência de rastreamento em 3 a 4 vezes.

"O objetivo principal desta atualização é tornar o crawler mais rápido e inteligente", disse o mantenedor do projeto, "especialmente no tratamento de páginas da web modernas, a nova versão apresenta vantagens significativas."

image.png

Um dos destaques desta atualização é o novo modo de texto. Ao desativar o carregamento de imagens, a execução de JavaScript e o processamento de GPU, este modo pode aumentar significativamente a velocidade de rastreamento. Os usuários podem habilitar este recurso simplesmente configurando o parâmetro text_only=True, ideal para cenários em que apenas o conteúdo de texto da página da web é necessário.

Considerando as características das páginas da web modernas, a versão v0.4.1 também otimizou o mecanismo de carregamento de conteúdo. A nova versão melhorou o tratamento de conteúdo de carregamento lento e introduziu o parâmetro wait_for_images para garantir o carregamento completo das imagens. Além disso, o novo recurso de ajuste de viewport dinâmico (adjust_viewport_to_content) garante que todo o conteúdo dinâmico seja capturado corretamente.

Para melhor lidar com páginas de carregamento dinâmico, como rolagem infinita, o Crawl4AI introduziu a função de varredura de página completa. Os usuários podem habilitar este recurso configurando scan_full_page=True, juntamente com o parâmetro scroll_delay para controlar precisamente o ritmo da varredura, simulando o comportamento de navegação de um usuário real.

Em termos de otimização de desempenho, a nova versão também melhorou a gestão de sessões. Através do mecanismo de reutilização de sessões, evita-se a sobrecarga de criação repetida de guias do navegador, reduzindo significativamente o consumo de memória e melhorando a eficiência geral.

Esta atualização marca um passo importante para o Crawl4AI na área de coleta de dados da web, fornecendo aos desenvolvedores uma ferramenta de crawler mais eficiente e confiável.

Endereço de lançamento de código aberto: https://crawl4ai.com/mkdocs/blog/releases/0.4.1/