MINT-1T
一万亿Token和34亿张图像的多模态数据集
优质新品开源多模态数据集
MINT-1T是由Salesforce AI开源的多模态数据集,包含一万亿个文本标记和34亿张图像,规模是现有开源数据集的10倍。它不仅包含HTML文档,还包括PDF文档和ArXiv论文,丰富了数据集的多样性。MINT-1T的数据集构建涉及多种来源的数据收集、处理和过滤步骤,确保了数据的高质量和多样性。
MINT-1T 最新流量情况
月总访问量
31309
跳出率
63.72%
平均页面访问数
1.5
平均访问时长
00:02:22