Crawl4LLM
Outil de crawling Web performant pour le pré-entraînement des LLM, axé sur l'extraction efficace de données Web de haute qualité.
Produit OrdinaireProgrammationLLMCrawling Web
Crawl4LLM est un projet de crawling Web open source conçu pour fournir des solutions d'extraction de données efficaces pour le pré-entraînement des grands modèles de langage (LLM). Il aide les chercheurs et les développeurs à obtenir des données d'entraînement de haute qualité grâce à une sélection et une extraction intelligentes de données Web. Cet outil prend en charge plusieurs méthodes de notation de documents et permet d'ajuster la stratégie d'extraction en fonction de la configuration pour répondre aux différents besoins de pré-entraînement. Développé en Python, il offre une excellente extensibilité et une grande facilité d'utilisation, ce qui le rend adapté à la recherche académique et aux applications industrielles.
Crawl4LLM Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34