El Instituto de Investigación DAMO de Alibaba, en colaboración con la comunidad ModelScope, ha anunciado recientemente la publicación de código abierto de P-MMEval, un nuevo conjunto de pruebas de referencia multilingüe. Su objetivo es evaluar exhaustivamente las capacidades multilingües de los grandes modelos de lenguaje (LLM) y realizar un análisis comparativo de su capacidad de transferencia entre idiomas.

Este conjunto de pruebas abarca conjuntos de datos eficientes para capacidades básicas y especializadas, garantizando la coherencia de la cobertura multilingüe en todos los conjuntos de datos seleccionados. Proporciona muestras paralelas en múltiples idiomas, con soporte para hasta 10 idiomas de 8 familias lingüísticas diferentes, incluyendo inglés, chino, árabe, español, japonés, coreano, tailandés, francés, portugués y vietnamita.

微信截图_20241212083907.png

El lanzamiento de P-MMEval responde a la necesidad de resultados de evaluación precisos y paralelos durante el desarrollo e iteración de grandes modelos de lenguaje. Esto es crucial para identificar las capacidades multilingües del modelo y cuantificar su rendimiento. Si bien los trabajos anteriores se centraban principalmente en la evaluación de tareas individuales, investigaciones recientes han propuesto algunos puntos de referencia de evaluación multilingüe y multitarea a gran escala, unificando varias tareas de referencia independientes representativas. Sin embargo, estos conjuntos de pruebas a gran escala no son consistentes en la cobertura de los tipos de idiomas.

P-MMEval selecciona conjuntos de pruebas de referencia utilizables y razonables mediante un método basado en pruebas de significancia. Integra tareas de procesamiento de lenguaje natural (PNL) básicas y tareas de evaluación específicas de capacidades, asegurando la coherencia de la cobertura lingüística en cada tarea y proporcionando muestras paralelas entre idiomas para permitir comparaciones consistentes. En cuanto a la diversidad de tareas, P-MMEval abarca dos tareas de PNL básicas clave (generación y comprensión) y cinco capacidades centrales de los LLM actuales. En cuanto a la diversidad lingüística, P-MMEval unifica diez idiomas diferentes que abarcan ocho familias lingüísticas.

El conjunto de datos P-MMEval ya está integrado en los sistemas de evaluación OpenCompass y EvalScope. Ambos marcos se pueden utilizar para ejecutar tareas de evaluación. OpenCompass proporciona una plataforma de evaluación de modelos de gran tamaño abierta, eficiente y completa, que admite la evaluación integral de modelos de lenguaje de gran tamaño y modelos multimodales, y publica periódicamente clasificaciones de resultados de evaluación. P-MMEval también se ha integrado en el sistema de evaluación de OpenCompass, y las tareas de evaluación se pueden realizar utilizando las herramientas de código abierto de OpenCompass.

Los investigadores evaluaron el rendimiento de varios modelos de ajuste de instrucciones representativos, incluidos los modelos de código cerrado GPT-4o y Claude-3.5, y los modelos de código abierto LLaMA3.1, LLaMA3.2 y Qwen2.5. Los resultados experimentales muestran que, a excepción de la serie LLaMA3.2, las capacidades multilingües de todos los modelos mejoran a medida que aumenta el tamaño del modelo. Qwen2.5 muestra un rendimiento multilingüe sólido en tareas de comprensión y capacidades especializadas, mientras que Gemma2 destaca en tareas de generación. En general, los modelos de código cerrado superan a los modelos de código abierto.

El lanzamiento de P-MMEval proporciona nuevas herramientas y métodos para la evaluación de las capacidades multilingües de los grandes modelos, lo que ayudará a impulsar el desarrollo y la aplicación de la tecnología de PNL multilingüe.

Enlace al conjunto de datos:

https://www.modelscope.cn/datasets/modelscope/P-MMEval