智源研究院、中文インターネットコーパスCCI3.0を発表 1000GBのデータセットを含む

AIbase基地

公開日AIニュース · 1 分で読めます · Sep 25, 2024

336

2024北京文化フォーラムにおいて、北京智源人工知能研究院（BAAI）は、次世代中国語インターネットコーパスCCI3.0（Chinese Corpora Internet）の正式リリースを発表し、データの共同構築と共有をさらに推進しました。CCI3.0には1000GBのデータセットと498GBの高品質サブセットCCI3.0-HQが含まれており、2023年11月のCCI1.0の初回公開、2024年4月のCCI2.0発表に続く重要なアップデートとなります。

初回公開以来、CCIシリーズデータセットのダウンロード数は4万回を超え、500以上の企業・機関の大規模モデル開発に貢献し、中国人工知能産業エコシステムの発展を効果的に支えています。

微信截图_20240925135352.png

CCI3.0の特徴は以下の通りです。

規模拡大、広範な情報源：CCI3.0は2億6800万以上のウェブページを収録しており、ニュース、ソーシャルメディア、ブログなど幅広い分野を網羅しています。CCI2.0と比較して、CCI3.0のデータ規模はほぼ2倍に拡大し、データ提供機関は20以上に増加しており、データの網羅性と代表性が大幅に向上しています。
精密なアノテーション、応用への貢献：CCI3.0は、文法、構文、教育レベルなど10以上の次元で、原始データに対して細粒度の分類と詳細なマーキングを行い、高価値データを選別しています。さらに、CCI3.0-HQは、70Bモデルによる自動アノテーションサンプルを基に、小型の高品質モデルをトレーニングして選別された高品質サブセットであり、様々な業界やアプリケーションシナリオのニーズに最適です。
顕著な効果、中国語への深い理解：5億パラメータのモデルをゼロから1000億データでトレーニングする比較実験において、CCI3.0は、中国語データ単独トレーニングと中国語・英語データ混合トレーニングの両方で、他のデータセットよりも優れた結果を示し、CCI3.0-HQの効果はさらに顕著でした。

智源研究院は、今後とも業界エコシステムと連携し、コーパスの共同構築と共有を推進し、大規模で高品質、高知識密度の中国語データセットを構築することで、中国人工知能産業の発展にさらに貢献していくと述べています。

CCI3.0ダウンロードアドレス

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3

2024胡潤中国人工知能企業50強ランキング：科大訊飛が2位、商湯科技が3位

胡潤研究院が、『2024胡潤中国人工知能企業50強』ランキングを発表しました。今回のランキングでは、AIチップ企業の寒武紀が2380億元（人民元）の評価額で首位を獲得し、人工知能分野における圧倒的な力を示しました。続いて、音声AI企業の科大訊飛が1160億元の評価額で2位、そして、機械視覚と大規模言語モデル分野で大きな影響力を持つ商湯科技が500億元の評価額で3位となりました。企業の分布状況を見ると、北京が20社と圧倒的な数を誇り、上海…

智源、ネイティブマルチモーダル世界モデルEmu3を発表：次のトークンの予測のみで、テキスト、画像、ビデオの理解と生成を実現

北京智源人工智能研究院は、次世代マルチモーダル世界モデルEmu3を発表しました。このモデルの最大の特徴は、次のトークンの予測能力のみで、テキスト、画像、ビデオという3つの異なるモーダルにおける理解と生成を可能にする点です。画像生成において、Emu3はビジュアルトークンの予測に基づいて高品質な画像を生成できます。これにより、ユーザーは柔軟な解像度と多様なスタイルを期待できます。ビデオ生成においては、Emu3は他のモデルとは異なる、全く新しい方法で動作します。

智源研究院、共同構築中文インターネットコーパスCCI、ビッグデータと人工知能業界に資源を提供

智源研究院は、拓爾思、中科聞歌と共同で「中文インターネットコーパス」(CCI)を構築しました。このコーパスは厳格な選別とクレンジングを経ており、データ規模は104GB、期間は2001年から2023年です。智源研究院は今後もデータソースの拡大、データ処理プロセスの改善を行い、より高品質で信頼性の高いデータ資源を提供していきます。智源研究院は、WUDAOコーパス、COIG、MTPなど、その他にも高品質な中文データセットを公開しています。この取り組みは、ビッグデータと人工知能業界への貢献を目指しています。

AIニュース

智源研究院、中文インターネットコーパスCCI3.0を発表 1000GBのデータセットを含む

AIbase基地

関連AIニュースの推奨

2024胡潤中国人工知能企業50強ランキング：科大訊飛が2位、商湯科技が3位

智源、ネイティブマルチモーダル世界モデルEmu3を発表：次のトークンの予測のみで、テキスト、画像、ビデオの理解と生成を実現

智源研究院、共同構築中文インターネットコーパスCCI、ビッグデータと人工知能業界に資源を提供