上海 AI 实验室与语料数据联盟发布了 “书生・万卷”1.0 多模态预训练语料,包含文本、图文和视频数据集。这个开源语料库总量超过 2TB,经过细粒度清洗和去重,具备多元融合、精细处理和易用高效的特点。该语料库的发布有助于推动大模型的应用和创新,降低大模型技术的门槛。