A Alibaba DAMO Academy, em conjunto com a comunidade ModelScope, anunciou recentemente a disponibilização em código aberto de um novo conjunto de testes de referência multilíngue, o P-MMEval. Seu objetivo é avaliar completamente as habilidades multilíngues de grandes modelos de linguagem (LLMs) e realizar uma análise comparativa de sua capacidade de transferência entre idiomas.

Este conjunto de testes abrange conjuntos de dados eficientes para habilidades básicas e especializadas, garantindo a consistência da cobertura multilíngue em todos os conjuntos de dados selecionados. Ele fornece amostras paralelas em várias línguas, suportando até 10 idiomas de 8 famílias linguísticas diferentes, incluindo inglês, chinês, árabe, espanhol, japonês, coreano, tailandês, francês, português e vietnamita.

微信截图_20241212083907.png

O lançamento do P-MMEval atende à necessidade de resultados de avaliação precisos e paralelos durante o desenvolvimento e a iteração de grandes modelos de linguagem. Isso é crucial para identificar as habilidades multilíngues do modelo e quantificar seu desempenho. Trabalhos anteriores se concentraram principalmente na avaliação de tarefas únicas, enquanto pesquisas recentes propuseram alguns benchmarks de avaliação multilíngues e multitarefas em larga escala, unificando várias tarefas de benchmark independentes representativas. No entanto, esses benchmarks em larga escala não são consistentes na cobertura de tipos de idiomas.

O P-MMEval seleciona conjuntos de testes de referência utilizáveis e razoáveis com base em um método de teste de significância. Ele integra tarefas de processamento de linguagem natural básicas e tarefas de avaliação específicas de capacidade, garantindo a consistência da cobertura de idiomas em cada tarefa e fornecendo amostras paralelas entre idiomas para permitir comparações consistentes. Em termos de diversidade de tarefas, o P-MMEval abrange duas tarefas básicas de PNL (geração e compreensão) e cinco capacidades principais dos LLMs atuais. Quanto à diversidade linguística, o P-MMEval unifica dez idiomas diferentes abrangendo oito famílias linguísticas.

O conjunto de dados P-MMEval já foi integrado ao sistema de avaliação OpenCompass e à estrutura de avaliação EvalScope. Ambas as estruturas podem ser usadas para executar tarefas de avaliação. O OpenCompass fornece uma plataforma de avaliação de modelos de código aberto, eficiente e abrangente, suportando a avaliação unificada de grandes modelos de linguagem, modelos multimodais e outros tipos de modelos, e publica regularmente rankings de resultados de avaliação. O P-MMEval também foi integrado ao sistema de avaliação OpenCompass e pode ser avaliado usando as ferramentas de código aberto do OpenCompass.

Os pesquisadores avaliaram o desempenho de vários modelos de ajuste de instruções representativos, incluindo os modelos proprietários GPT-4o e Claude-3.5, e os modelos de código aberto LLaMA3.1, LLaMA3.2 e Qwen2.5. Os resultados experimentais mostram que, exceto para a série LLaMA3.2, a capacidade multilíngue de todos os modelos aumenta com o aumento do tamanho do modelo. O Qwen2.5 apresentou um desempenho multilíngue robusto em tarefas de compreensão e habilidades especializadas, enquanto o Gemma2 se destacou em tarefas de geração. Os modelos proprietários, em geral, superaram os modelos de código aberto.

O lançamento do P-MMEval fornece novas ferramentas e métodos para a avaliação da capacidade multilíngue de grandes modelos, contribuindo para o desenvolvimento e aplicação de tecnologias de PNL multilíngues.

Link do conjunto de dados:

https://www.modelscope.cn/datasets/modelscope/P-MMEval