MNBVC
MNBVC是一个超大规模的中文语料集,对标chatGPT训练的40T数据
普通产品开源自然语言处理中文语料库
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个旨在为AI提供丰富中文语料的项目。它不仅包括主流文化内容,还涵盖了小众文化和网络用语。数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等多种形式的纯文本中文数据。
MNBVC 最新流量情况
月总访问量
515580771
跳出率
37.20%
平均页面访问数
5.8
平均访问时长
00:06:42