智源研究院联合共建中文互联网语料库 CCI,为大数据和人工智能行业提供资源
站长之家
30
智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),该语料库经过严格的筛选和清洗,首期开放的数据规模为 104GB,时间跨度为 2001 年至 2023 年。智源研究院表示将继续扩充数据来源、完善数据处理流程,并开放其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP。此举旨在为大数据和人工智能行业提供安全、可靠的语料资源。
© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/3677