FineWeb

高质量英文网页数据集

普通产品编程自然语言处理数据集
FineWeb数据集包含超过15万亿个经过清洗和去重的英文网页数据,来源于CommonCrawl。该数据集专为大型语言模型预训练设计,旨在推动开源模型的发展。数据集经过精心处理和筛选,以确保高质量,适用于各种自然语言处理任务。
打开网站

FineWeb 最新流量情况

月总访问量

19075321

跳出率

45.07%

平均页面访问数

5.5

平均访问时长

00:05:32

FineWeb 访问量趋势

FineWeb 访问地理位置分布

FineWeb 流量来源

FineWeb 替代品