El 3 de marzo de 2025, Tongyi Lingma anunció el lanzamiento de su último modelo de razonamiento, Qwen2.5-Max, ofreciendo a los desarrolladores un potente soporte para programación y matemáticas. Qwen2.5-Max utilizó más de 20 billones de tokens de datos de preentrenamiento, combinados con un esquema de post-entrenamiento cuidadosamente diseñado, mostrando un rendimiento excepcional.

En varias pruebas de referencia, Qwen2.5-Max obtuvo resultados destacados. Por ejemplo, en pruebas como Arena-Hard, LiveBench, LiveCodeBench y GPQA-Diamond, Qwen2.5-Max superó a otros modelos líderes en la industria, incluyendo DeepSeek V3, GPT-4o y Claude-3.5-Sonnet. Además, en evaluaciones como MMLU-Pro, Qwen2.5-Max también mostró resultados muy competitivos.

微信截图_20250303214041.png

En la comparación de modelos base, Qwen2.5-Max se comparó exhaustivamente con modelos como DeepSeek V3, Llama-3.1-405B y Qwen2.5-72B. Los resultados mostraron que el modelo base de Tongyi Qianwen presentó una ventaja significativa en la mayoría de las pruebas de referencia.

Cabe destacar que en la última clasificación de modelos grandes a ciegas publicada por la plataforma de pruebas de referencia de terceros Chatbot Arena, Qwen2.5-Max superó a modelos como DeepSeek-V3, Open AI o1-mini y Claude-3.5-Sonnet, alcanzando la séptima posición mundial con 1332 puntos, convirtiéndose en el campeón chino de modelos grandes no de razonamiento. En capacidades individuales como matemáticas y programación, Qwen2.5-Max ocupó el primer lugar, y en capacidad de indicaciones difíciles (Hard prompts) el segundo lugar. Chatbot Arena comentó oficialmente que el Qwen2.5-Max de Alibaba mostró un rendimiento sólido en múltiples áreas, especialmente en programación, matemáticas e indicaciones difíciles, entre otras áreas técnicas especializadas.

Actualmente, Qwen2.5-Max ya está integrado en Tongyi Lingma, y los usuarios pueden experimentar su potente capacidad de programación descargando el plugin de Tongyi Lingma.