Publication du corpus de pré-entraînement multi-modal "Shusheng · Wanjuan" 1.0

Le laboratoire IA de Shanghai et l'alliance des données de corpus ont publié le corpus de pré-entraînement multi-modal "Shusheng · Wanjuan" 1.0, comprenant des ensembles de données textuelles, textuelles et visuelles, et vidéo. Ce corpus open source, d'une taille supérieure à 2 To, a subi un nettoyage et une déduplication granulaires. Il se caractérise par sa fusion multiforme, son traitement précis et son efficacité.

La publication de ce corpus contribuera à stimuler l'application et l'innovation des grands modèles, et à réduire le seuil d'accès aux technologies des grands modèles.