智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),该语料库经过严格的筛选和清洗,首期开放的数据规模为 104GB,时间跨度为 2001 年至 2023 年。智源研究院表示将继续扩充数据来源、完善数据处理流程,并开放其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP。此举旨在为大数据和人工智能行业提供安全、可靠的语料资源。