Crawl4LLM est un projet de crawling Web open source conçu pour fournir des solutions d'extraction de données efficaces pour le pré-entraînement des grands modèles de langage (LLM). Il aide les chercheurs et les développeurs à obtenir des données d'entraînement de haute qualité grâce à une sélection et une extraction intelligentes de données Web. Cet outil prend en charge plusieurs méthodes de notation de documents et permet d'ajuster la stratégie d'extraction en fonction de la configuration pour répondre aux différents besoins de pré-entraînement. Développé en Python, il offre une excellente extensibilité et une grande facilité d'utilisation, ce qui le rend adapté à la recherche académique et aux applications industrielles.