MINT-1T

一万亿Token和34亿张图像的多模态数据集

优质新品开源多模态数据集
MINT-1T是由Salesforce AI开源的多模态数据集,包含一万亿个文本标记和34亿张图像,规模是现有开源数据集的10倍。它不仅包含HTML文档,还包括PDF文档和ArXiv论文,丰富了数据集的多样性。MINT-1T的数据集构建涉及多种来源的数据收集、处理和过滤步骤,确保了数据的高质量和多样性。
打开网站

MINT-1T 最新流量情况

月总访问量

33892

跳出率

54.66%

平均页面访问数

1.6

平均访问时长

00:02:04

MINT-1T 访问量趋势

MINT-1T 访问地理位置分布

MINT-1T 流量来源

MINT-1T 替代品