Alibaba Qwen2-72B encabeza la lista HELM: rendimiento superior a Llama3-70B

AIbase

Publicado elNoticias de IA · 5 minutos de lectura · Jun 20, 2024

443

Recientemente, la lista de evaluación de modelos grandes HELM MMLU de la Universidad de Stanford publicó sus últimos resultados. Percy Liang, director del Centro de Investigación de Modelos Fundamentales de la Universidad de Stanford, publicó un artículo señalando que el modelo Qwen2-72B de Alibaba superó a Llama3-70B en el ranking, convirtiéndose en el modelo de código abierto con mejor rendimiento.

MMLU (Massive Multitask Language Understanding, Comprensión del Lenguaje de Múltiples Tareas a Gran Escala) es uno de los puntos de referencia de evaluación de modelos grandes más influyentes de la industria. Abarca 57 tareas, incluyendo matemáticas básicas, ciencias de la computación, derecho e historia, con el objetivo de evaluar el conocimiento del mundo y la capacidad de resolución de problemas de los modelos grandes. Sin embargo, en las evaluaciones reales, los resultados de los diferentes modelos a menudo carecen de consistencia y comparabilidad, principalmente debido al uso de técnicas de indicaciones no estándar y la falta de adopción de un marco de evaluación de código abierto unificado.

QQ截图20240620111950.png

El marco de evaluación de modelos fundamentales HELM (A holistic framework for evaluating foundation models), propuesto por el Centro de Investigación de Modelos Fundamentales (CRFM) de la Universidad de Stanford, busca crear un método de evaluación transparente y reproducible. El marco HELM estandariza y transparenta los resultados de la evaluación de diferentes modelos en MMLU, resolviendo los problemas existentes en la evaluación MMLU. Por ejemplo, utiliza las mismas indicaciones para todos los modelos participantes y proporciona a los modelos los mismos 5 ejemplos para el aprendizaje contextual en cada tema de prueba.

Percy Liang, director del Centro de Investigación de Modelos Fundamentales de la Universidad de Stanford, publicó recientemente la lista actualizada de HELM MMLU en las redes sociales. La lista muestra que el modelo de código abierto Qwen2-72B de Alibaba ocupa el quinto lugar, solo superado por Claude3Opus, GPT-4o, Gemini1.5pro y GPT-4, siendo el modelo de código abierto mejor posicionado y también el mejor modelo chino en rendimiento.

La serie Qwen2 de Tongyi Qianwen se lanzó como código abierto a principios de junio de 2024, e incluye cinco modelos de preentrenamiento y ajuste fino de instrucciones de diferentes tamaños. Hasta la fecha, la serie de modelos Qwen ha superado los 16 millones de descargas, lo que demuestra su amplio reconocimiento y potente rendimiento en la industria.

Los últimos resultados de la evaluación de HELM MMLU no solo demuestran el excelente rendimiento de Qwen2-72B en la comprensión del lenguaje de múltiples tareas, sino que también marcan el auge de los modelos grandes chinos en la competencia tecnológica de la IA global. Con el continuo progreso de la tecnología, esperamos ver en el futuro más modelos grandes excelentes de China destacarse en el escenario internacional.

Plataforma de evaluación de modelos grandes CompassArena actualizada: nueva función Judge Copilot

CompassArena (arena de grandes modelos), la plataforma de evaluación de modelos grandes lanzada conjuntamente por el equipo de OpenCompass de Shanghai Artificial Intelligence Laboratory y ModelScope, ha recibido una actualización reciente para ofrecer a los usuarios una experiencia de evaluación de modelos más científica e integral. Desde su lanzamiento, la plataforma ha atraído a una gran cantidad de usuarios de la comunidad que han participado y contribuido con datos. Basándose en estos datos, CompassArena ha seguido optimizándose. Esta actualización incluye la nueva función Judge Copilot y mejoras en el algoritmo de clasificación.

Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales

El equipo de OpenCompass de Shanghai AI Lab, en colaboración con ModelScope, ha lanzado Compass Multi-Modal Arena, una nueva sección de la plataforma de evaluación de modelos grandes centrada en modelos multimodales. Los usuarios pueden cargar una imagen y plantear una pregunta, permitiendo que dos modelos multimodales anónimos generen respuestas. Posteriormente, se realiza una evaluación subjetiva de la calidad del contenido generado para elegir el modelo con mejor rendimiento. La plataforma ofrece una interfaz fácil de usar y un banco de preguntas especial, cuyo contenido se detalla más adelante.

¿Gemini Pro supera a GPT-4 en razonamiento? Un estudio conjunto de Stanford y Meta lo aclara

''Gemini Pro demuestra un rendimiento excepcional en tareas de razonamiento de sentido común, según un estudio de Stanford y Meta que sugiere que Gemini ha sido subestimado.'' Los investigadores diseñaron un nuevo conjunto de pruebas, revelando que Gemini muestra una capacidad de razonamiento más sólida en tareas complejas que lo demostrado previamente.'' La evaluación incluyó 11 conjuntos de datos basados en lenguaje y un conjunto de datos multimodal, mostrando que Gemini Pro se equipara a GPT-3.5.'' GPT-4 Turbo mantiene una ventaja en el rendimiento general, pero Gemini Pro supera a GPT-4 Turbo en tareas específicas.''

Investigación sobre el caos en la evaluación de modelos grandes: el tamaño de los parámetros no lo es todo

La cantidad de parámetros no es el único estándar para evaluar los modelos grandes; las diferencias en los conjuntos de evaluación provocan grandes diferencias en la clasificación; el aumento de la proporción de preguntas subjetivas también afecta a la clasificación; la imparcialidad de la evaluación es fácilmente cuestionable; las agencias de evaluación de terceros como OpenCompass y FlagEval están empezando a recibir atención; el mundo académico considera que también se deben tener en cuenta la robustez y la seguridad del modelo en múltiples dimensiones; la forma de evaluación realmente completa y eficaz aún se encuentra en fase de exploración.