書生・万巻1.0多モーダル事前学習コーパス公開

上海AI研究所とコーパスデータ連合は、「書生・万巻」1.0多モーダル事前学習コーパスを公開しました。テキスト、画像テキスト、ビデオデータセットを含みます。

このオープンソースのコーパスは、総容量2TB以上で、細粒度のクレンジングと重複排除処理が施されており、多様な融合、精密な処理、使いやすさ、効率性を特徴としています。

本コーパスの公開は、大規模モデルの応用と革新を促進し、大規模モデル技術の参入障壁を下げることに役立ちます。