Recentemente, o HELM MMLU, ranking de avaliação de modelos grandes da Universidade de Stanford, divulgou seus resultados mais recentes. Percy Liang, diretor do Centro de Pesquisa de Modelos Fundamentais da Universidade de Stanford, publicou um artigo apontando que o modelo Qwen2-72B da Alibaba superou o Llama3-70B no ranking, tornando-se o melhor modelo de código aberto.

MMLU (Massive Multitask Language Understanding, compreensão de linguagem em múltiplas tarefas em larga escala) é um dos benchmarks de avaliação de modelos grandes mais influentes do setor. Ele abrange 57 tarefas, incluindo matemática básica, ciência da computação, direito e história, com o objetivo de testar o conhecimento de mundo e a capacidade de resolução de problemas de modelos grandes. No entanto, em avaliações práticas, os resultados de diferentes modelos muitas vezes carecem de consistência e comparabilidade, principalmente devido ao uso de técnicas de prompt não padronizadas e à falta de adoção de um framework de avaliação de código aberto.

QQ截图20240620111950.png

O framework de avaliação de modelos fundamentais HELM (A holistic framework for evaluating foundation models), proposto pelo Centro de Pesquisa de Modelos Fundamentais (CRFM) da Universidade de Stanford, visa criar um método de avaliação transparente e reprodutível. O framework HELM padroniza e transparantiza os resultados da avaliação de diferentes modelos no MMLU, resolvendo problemas existentes na avaliação MMLU. Por exemplo, usa os mesmos prompts para todos os modelos participantes e fornece 5 exemplos para aprendizado contextual em cada tópico de teste.

Percy Liang, diretor do Centro de Pesquisa de Modelos Fundamentais da Universidade de Stanford, publicou recentemente a classificação mais recente do HELM MMLU em uma plataforma de mídia social. A classificação mostra que o modelo de código aberto Qwen2-72B da Alibaba ficou em 5º lugar, apenas atrás do Claude3Opus, GPT-4o, Gemini1.5pro e GPT-4, sendo o modelo de código aberto de melhor classificação e também o melhor modelo chinês.

A série Qwen2 da Tongyi Qianwen foi lançada em código aberto no início de junho de 2024, incluindo 5 modelos de pré-treinamento e ajuste fino de instruções de diferentes tamanhos. Até o momento, o número de downloads dos modelos da série Qwen ultrapassou 16 milhões, mostrando seu amplo reconhecimento e desempenho poderoso na indústria.

Os resultados mais recentes da avaliação HELM MMLU não apenas demonstram o excelente desempenho do Qwen2-72B na compreensão da linguagem em múltiplas tarefas, mas também marcam a ascensão dos grandes modelos chineses na competição tecnológica global de IA. Com o contínuo progresso tecnológico, esperamos ver mais grandes modelos excelentes da China se destacando no cenário internacional.