Em 3 de março de 2025, a Tongyi Qianwen lançou seu mais recente modelo de raciocínio, o Qwen2.5-Max, oferecendo suporte poderoso para programação e habilidades matemáticas para desenvolvedores. O Qwen2.5-Max apresenta um desempenho excepcional, combinando dados de pré-treinamento com mais de 20 trilhões de tokens e um esquema de treinamento posterior cuidadosamente projetado.

Em vários testes de benchmark, o Qwen2.5-Max apresentou resultados excelentes. Por exemplo, em testes como Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond, ele superou modelos líderes do setor, como DeepSeek V3, GPT-4o e Claude-3.5-Sonnet. Além disso, também apresentou resultados altamente competitivos em avaliações como MMLU-Pro.

微信截图_20250303214041.png

Em comparações de modelos básicos, o Qwen2.5-Max foi comparado abrangentemente a modelos como DeepSeek V3, Llama-3.1-405B e Qwen2.5-72B. Os resultados mostraram que o modelo básico da Tongyi Qianwen exibiu uma vantagem significativa em muitos testes de benchmark.

É digno de nota que, no ranking de testes cegos de modelos de linguagem grandes mais recentes publicado pela plataforma de testes de benchmark de terceiros Chatbot Arena, o Qwen2.5-Max superou modelos como DeepSeek-V3, Open AI o1-mini e Claude-3.5-Sonnet, alcançando a 7ª posição mundial com 1332 pontos e conquistando o primeiro lugar entre os modelos de linguagem grandes não-de-raciocínio da China. Em habilidades individuais, como matemática e programação, o Qwen2.5-Max ficou em 1º lugar, e em capacidade de prompts difíceis (Hard prompts), ficou em 2º lugar. A Chatbot Arena avaliou que o Qwen2.5-Max da Alibaba demonstrou alto desempenho em várias áreas, especialmente em áreas de especialização técnica como programação, matemática e prompts difíceis.

Atualmente, o Qwen2.5-Max está integrado ao Tongyi Qianwen, e os usuários podem experimentar suas poderosas habilidades de programação baixando o plugin Tongyi Qianwen.