O conjunto de dados multilíngue e multimodal “Wanjuan·Silk Road 2.0”, lançado pelo Laboratório de Inteligência Artificial de Xangai, foi oficialmente disponibilizado como código aberto. Construindo sobre os 5 idiomas originais (árabe, russo, coreano, vietnamita e tailandês), foram adicionados três idiomas com dados escassos: sérvio, húngaro e tcheco. O conjunto de dados abrange quatro modalidades: texto, imagem, áudio e vídeo, com um total de mais de 11,5 milhões de itens, com duração de áudio e vídeo superior a 26.000 horas, tornando-se um recurso importante na área de multimodalidade para idiomas minoritários.

微信截图_20250417083637.png

“Wanjuan·Silk Road 2.0” apresenta as características de multilinguagem, grande escala, multimodalidade e alta qualidade. Além de expandir o número de idiomas, ele atualizou completamente as modalidades e a quantidade total de dados, adicionando quatro novas modalidades de dados: imagem-texto, áudio-texto, vídeo-texto e ajuste fino de instruções especializadas (SFT). Isso cobre toda a cadeia de pesquisa multimodal. Os dados passaram por um processo de produção maduro e reforço de segurança, combinando algoritmos de filtragem e revisão de qualidade manual especializada por especialistas locais, tornando-se um conjunto de dados de alta qualidade que abrange múltiplas modalidades e áreas, adequado para diferentes cenários como turismo cultural, comércio e educação científica e tecnológica.

O conteúdo de código aberto inclui: mais de 2 milhões de pares imagem-texto; mais de 1600 horas de áudio-texto; mais de 25.000 horas de vídeo-texto; e 180.000 itens de dados SFT. Os dados de código aberto abrangem vários idiomas, fornecendo aos desenvolvedores ricos recursos de dados multimodais.

“Wanjuan·Silk Road 2.0” demonstra um notável efeito de empoderamento do modelo. Ao treinar um modelo básico de 7 bilhões de parâmetros, o desempenho geral do modelo aumentou em 52,3%. No treinamento de um modelo grande de 70 bilhões de parâmetros, ainda mantém um aumento de desempenho de 12,8%. Este conjunto de dados permite que modelos leves demonstrem um desempenho superior a modelos grandes no processamento de várias línguas, fornecendo forte suporte para o ajuste fino de modelos multilíngues.

Endereço do conjunto de dados:

https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042

Estrutura de ajuste fino com um clique:

https://github.com/modelscope/ms-swift