2023-11-29 14:00:10.AIbase.3.7k
智源研究院、共同構築中文インターネットコーパスCCI、ビッグデータと人工知能業界に資源を提供
智源研究院は、拓爾思、中科聞歌と共同で「中文インターネットコーパス」(CCI)を構築しました。このコーパスは厳格な選別とクレンジングを経ており、データ規模は104GB、期間は2001年から2023年です。智源研究院は今後もデータソースの拡大、データ処理プロセスの改善を行い、より高品質で信頼性の高いデータ資源を提供していきます。智源研究院は、WUDAOコーパス、COIG、MTPなど、その他にも高品質な中文データセットを公開しています。この取り組みは、ビッグデータと人工知能業界への貢献を目指しています。