中文インターネットコーパス (CCI)

北京智源人工智能研究院は、拓尔思情報技術と中科聞歌と共同で「中文インターネットコーパス」(CCI)を構築しました。このコーパスは厳格な選別とクレンジングを経ており、第一期として104GBのデータが公開されています。データの期間は2001年から2023年までです。

智源研究院は、データソースの拡大、データ処理プロセスの改善を継続し、WUDAOコーパス、COIG、MTPなどの他の高品質な中文データセットも公開する予定です。この取り組みは、ビッグデータと人工知能業界に安全で信頼性の高い語彙資源を提供することを目的としています。