O laboratório de IA de Xangai e a Liga de Dados de Corpus lançaram o corpus de pré-treinamento multimodal "Shusheng · Wanjuan" 1.0, que inclui conjuntos de dados de texto, texto e imagem e vídeo. Este corpus de código aberto tem um tamanho total superior a 2 TB, foi cuidadosamente limpo e desduplicado, e apresenta as características de fusão diversificada, processamento refinado e alta eficiência. O lançamento deste corpus ajudará a impulsionar a aplicação e a inovação de grandes modelos, reduzindo a barreira de entrada para a tecnologia de grandes modelos.