上海 AI 实验室开源 “书生・万卷”1.0 多模态预训练语料站长之家发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月15号 10:4310 上海 AI 实验室与语料数据联盟发布了 “书生・万卷”1.0 多模态预训练语料,包含文本、图文和视频数据集。这个开源语料库总量超过 2TB,经过细粒度清洗和去重,具备多元融合、精细处理和易用高效的特点。该语料库的发布有助于推动大模型的应用和创新,降低大模型技术的门槛。上海 AI 实验室多模态预训练语料开源© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/497