FineWeb
高质量英文网页数据集
普通产品编程自然语言处理数据集
FineWeb数据集包含超过15万亿个经过清洗和去重的英文网页数据,来源于CommonCrawl。该数据集专为大型语言模型预训练设计,旨在推动开源模型的发展。数据集经过精心处理和筛选,以确保高质量,适用于各种自然语言处理任务。
FineWeb 最新流量情况
月总访问量
20899836
跳出率
46.04%
平均页面访问数
5.2
平均访问时长
00:04:57
高质量英文网页数据集
月总访问量
20899836
跳出率
46.04%
平均页面访问数
5.2
平均访问时长
00:04:57