Chinesisches Internet-Korpus (CCI)

Das Beijing Academy of Artificial Intelligence (BAAI) hat gemeinsam mit TOLS und Zhongke WenGe das „Chinesische Internet-Korpus“ (CCI) erstellt. Dieses Korpus wurde streng selektiert und bereinigt. Die erste Veröffentlichung umfasst 104 GB Daten und erstreckt sich von 2001 bis 2023.

Das BAAI kündigte an, die Datenquellen weiter auszubauen, die Datenverarbeitungsprozesse zu verbessern und weitere hochwertige chinesische Datensätze wie WUDAO Corpora, COIG und MTP öffentlich zugänglich zu machen. Ziel ist es, der Big-Data- und KI-Branche sichere und zuverlässige Sprachressourcen zur Verfügung zu stellen.