Crawl4LLM

一个用于LLM预训练的高效网络爬虫工具,专注于高效爬取高质量网页数据。

普通产品编程LLM网络爬虫
Crawl4LLM是一个开源的网络爬虫项目,旨在为大型语言模型(LLM)的预训练提供高效的数据爬取解决方案。它通过智能选择和爬取网页数据,帮助研究人员和开发者获取高质量的训练语料。该工具支持多种文档评分方法,能够根据配置灵活调整爬取策略,以满足不同的预训练需求。项目基于Python开发,具有良好的扩展性和易用性,适合在学术研究和工业应用中使用。
打开网站

Crawl4LLM 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

Crawl4LLM 访问量趋势

Crawl4LLM 访问地理位置分布

Crawl4LLM 流量来源

Crawl4LLM 替代品