Le projet de crawler web open source Crawl4 AI a récemment publié la version v0.4.1, apportant plusieurs mises à jour importantes. La plus remarquable est l'ajout du mode texte (Text-Only Mode), qui, grâce à une stratégie optimisée de chargement des ressources, améliore l'efficacité de la collecte jusqu'à 3 à 4 fois.

"L'objectif principal de cette mise à jour est de rendre le crawler plus rapide et plus intelligent", a déclaré le mainteneur du projet, "en particulier pour le traitement des pages web modernes, la nouvelle version présente des avantages significatifs."

image.png

L'un des points forts de cette mise à jour est le nouveau mode texte. En désactivant le chargement des images, l'exécution de JavaScript et le traitement GPU, ce mode permet d'augmenter considérablement la vitesse de collecte. Il suffit de définir le paramètre text_only=True pour activer cette fonctionnalité, particulièrement utile pour les scénarios où seuls les contenus textuels des pages web sont nécessaires.

Pour s'adapter aux spécificités des pages web modernes, la version v0.4.1 a également optimisé le mécanisme de chargement du contenu. La nouvelle version améliore le traitement du contenu chargé paresseusement et introduit le paramètre wait_for_images pour garantir le chargement complet des images. De plus, la nouvelle fonctionnalité d'ajustement dynamique de la fenêtre d'affichage (adjust_viewport_to_content) permet de s'assurer que tous les contenus dynamiques sont correctement capturés.

Pour mieux gérer les pages à chargement dynamique, telles que le défilement infini, Crawl4AI a introduit une fonction de scan complet de la page. Les utilisateurs peuvent activer cette fonction en définissant scan_full_page=True et utiliser le paramètre scroll_delay pour contrôler précisément le rythme du scan, simulant ainsi le comportement de navigation d'un utilisateur réel.

En termes d'optimisation des performances, la nouvelle version a également amélioré la gestion des sessions. Grâce à un mécanisme de réutilisation des sessions, les coûts liés à la création répétée d'onglets de navigateur sont évités, ce qui réduit considérablement l'occupation mémoire et améliore l'efficacité globale.

Cette mise à jour marque une étape importante pour Crawl4AI dans le domaine de la collecte de données web, offrant aux développeurs un outil de crawling plus efficace et plus fiable.

Adresse de publication open source : https://crawl4ai.com/mkdocs/blog/releases/0.4.1/