2024北京文化フォーラムにおいて、北京智源人工知能研究院(BAAI)は、次世代中国語インターネットコーパスCCI3.0(Chinese Corpora Internet)の正式リリースを発表し、データの共同構築と共有をさらに推進しました。CCI3.0には1000GBのデータセットと498GBの高品質サブセットCCI3.0-HQが含まれており、2023年11月のCCI1.0の初回公開、2024年4月のCCI2.0発表に続く重要なアップデートとなります。

初回公開以来、CCIシリーズデータセットのダウンロード数は4万回を超え、500以上の企業・機関の大規模モデル開発に貢献し、中国人工知能産業エコシステムの発展を効果的に支えています。

微信截图_20240925135352.png

CCI3.0の特徴は以下の通りです。

  1. 規模拡大、広範な情報源:CCI3.0は2億6800万以上のウェブページを収録しており、ニュース、ソーシャルメディア、ブログなど幅広い分野を網羅しています。CCI2.0と比較して、CCI3.0のデータ規模はほぼ2倍に拡大し、データ提供機関は20以上に増加しており、データの網羅性と代表性が大幅に向上しています。

  2. 精密なアノテーション、応用への貢献:CCI3.0は、文法、構文、教育レベルなど10以上の次元で、原始データに対して細粒度の分類と詳細なマーキングを行い、高価値データを選別しています。さらに、CCI3.0-HQは、70Bモデルによる自動アノテーションサンプルを基に、小型の高品質モデルをトレーニングして選別された高品質サブセットであり、様々な業界やアプリケーションシナリオのニーズに最適です。

  3. 顕著な効果、中国語への深い理解:5億パラメータのモデルをゼロから1000億データでトレーニングする比較実験において、CCI3.0は、中国語データ単独トレーニングと中国語・英語データ混合トレーニングの両方で、他のデータセットよりも優れた結果を示し、CCI3.0-HQの効果はさらに顕著でした。

智源研究院は、今後とも業界エコシステムと連携し、コーパスの共同構築と共有を推進し、大規模で高品質、高知識密度の中国語データセットを構築することで、中国人工知能産業の発展にさらに貢献していくと述べています。

CCI3.0ダウンロードアドレス

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3