El laboratorio de IA de Shanghai y la Liga de Datos de Corpus han publicado el corpus de entrenamiento multimodal "Shusheng · Wanjuan" 1.0, que incluye conjuntos de datos de texto, texto e imagen, y vídeo. Este corpus de código abierto tiene un tamaño total de más de 2 TB, ha sido cuidadosamente limpiado y depurado, y se caracteriza por su fusión multidimensional, procesamiento preciso y alta eficiencia.

La publicación de este corpus ayudará a impulsar la aplicación e innovación de los grandes modelos, reduciendo el umbral de acceso a esta tecnología.