Recientemente, la lista de evaluación de modelos grandes HELM MMLU de la Universidad de Stanford publicó sus últimos resultados. Percy Liang, director del Centro de Investigación de Modelos Fundamentales de la Universidad de Stanford, publicó un artículo señalando que el modelo Qwen2-72B de Alibaba superó a Llama3-70B en el ranking, convirtiéndose en el modelo de código abierto con mejor rendimiento.
MMLU (Massive Multitask Language Understanding, Comprensión del Lenguaje de Múltiples Tareas a Gran Escala) es uno de los puntos de referencia de evaluación de modelos grandes más influyentes de la industria. Abarca 57 tareas, incluyendo matemáticas básicas, ciencias de la computación, derecho e historia, con el objetivo de evaluar el conocimiento del mundo y la capacidad de resolución de problemas de los modelos grandes. Sin embargo, en las evaluaciones reales, los resultados de los diferentes modelos a menudo carecen de consistencia y comparabilidad, principalmente debido al uso de técnicas de indicaciones no estándar y la falta de adopción de un marco de evaluación de código abierto unificado.
El marco de evaluación de modelos fundamentales HELM (A holistic framework for evaluating foundation models), propuesto por el Centro de Investigación de Modelos Fundamentales (CRFM) de la Universidad de Stanford, busca crear un método de evaluación transparente y reproducible. El marco HELM estandariza y transparenta los resultados de la evaluación de diferentes modelos en MMLU, resolviendo los problemas existentes en la evaluación MMLU. Por ejemplo, utiliza las mismas indicaciones para todos los modelos participantes y proporciona a los modelos los mismos 5 ejemplos para el aprendizaje contextual en cada tema de prueba.
Percy Liang, director del Centro de Investigación de Modelos Fundamentales de la Universidad de Stanford, publicó recientemente la lista actualizada de HELM MMLU en las redes sociales. La lista muestra que el modelo de código abierto Qwen2-72B de Alibaba ocupa el quinto lugar, solo superado por Claude3Opus, GPT-4o, Gemini1.5pro y GPT-4, siendo el modelo de código abierto mejor posicionado y también el mejor modelo chino en rendimiento.
La serie Qwen2 de Tongyi Qianwen se lanzó como código abierto a principios de junio de 2024, e incluye cinco modelos de preentrenamiento y ajuste fino de instrucciones de diferentes tamaños. Hasta la fecha, la serie de modelos Qwen ha superado los 16 millones de descargas, lo que demuestra su amplio reconocimiento y potente rendimiento en la industria.
Los últimos resultados de la evaluación de HELM MMLU no solo demuestran el excelente rendimiento de Qwen2-72B en la comprensión del lenguaje de múltiples tareas, sino que también marcan el auge de los modelos grandes chinos en la competencia tecnológica de la IA global. Con el continuo progreso de la tecnología, esperamos ver en el futuro más modelos grandes excelentes de China destacarse en el escenario internacional.