Typ :
- Nachrichten und Informationen
- Produktanwendungen
- Monetarisierungsfälle
- KI-Tutorials
2024-09-25 13:54:53.AIbase.12.0k
智源研究院发布中文互联网语料库CCI 3.0,包含 1000 GB 数据集
Auf dem Beijing Culture Forum 2024 gab das Beijing Academy of Artificial Intelligence (BAAI) die offizielle Veröffentlichung des CCI 3.0 (Chinese Corpora Internet), der neuen Generation des chinesischen Internet-Korpus, bekannt. Dies fördert die gemeinsame Nutzung und den Aufbau von Daten weiter. CCI 3.0 umfasst einen Datensatz von 1000 GB und einen 498 GB großen hochwertigen Subset CCI 3.0-HQ. Dies ist nach der erstmaligen Open-Source-Veröffentlichung von CCI 1.0 im November 2023 und der Veröffentlichung von CCI 2.0 im April 2024 ein weiteres wichtiges Update.

2023-11-29 14:00:10.AIbase.3.7k
智源研究院携手共建中文互联网语料库 CCI,助力大数据与人工智能领域
Das Forschungsinstitut für künstliche Intelligenz (AI) Zhiyuan hat zusammen mit Topos und Zhongke Wenge das "Chinese Internet Corpus" (CCI) erstellt. Dieser sorgfältig kuratierte und bereinigte Datensatz umfasst 104 GB und deckt den Zeitraum von 2001 bis 2023 ab. Zhiyuan wird die Datenquellen weiter ausbauen und die Datenverarbeitungsprozesse optimieren, um qualitativ hochwertige und zuverlässige Daten bereitzustellen. Zusätzlich bietet Zhiyuan weitere hochwertige chinesische Datensätze wie WUDAO Corpora, COIG und MTP an. Diese Initiative zielt darauf ab,...