En la madrugada de hoy, el equipo de Alibaba Tongyi Qianwen lanzó los modelos de código abierto de la serie Qwen2. Esta serie de modelos incluye cinco modelos de preentrenamiento y ajuste fino de instrucciones de diferentes tamaños: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B y Qwen2-72B. La información clave muestra que estos modelos han mejorado significativamente en cantidad de parámetros y rendimiento en comparación con la generación anterior, Qwen1.5.

En cuanto a la capacidad multilingüe de los modelos, la serie Qwen2 ha dedicado una gran cantidad de esfuerzo a aumentar la cantidad y la calidad de los conjuntos de datos, cubriendo 27 idiomas además del inglés y el chino. Las pruebas comparativas muestran que los modelos grandes (70B+ parámetros) destacan en comprensión del lenguaje natural, codificación y capacidad matemática, y el modelo Qwen2-72B supera a su predecesor en rendimiento y cantidad de parámetros.

Los modelos Qwen2 no solo muestran una potente capacidad en las evaluaciones de modelos de lenguaje básicos, sino que también obtienen resultados impresionantes en las evaluaciones de modelos de ajuste fino de instrucciones. Su capacidad multilingüe destaca en pruebas de referencia como M-MMLU y MGSM, mostrando el enorme potencial de los modelos Qwen2 de ajuste fino de instrucciones.

El lanzamiento de la serie de modelos Qwen2 marca un nuevo hito en la tecnología de inteligencia artificial, ofreciendo posibilidades más amplias para las aplicaciones y la comercialización de la IA a nivel mundial. De cara al futuro, Qwen2 ampliará aún más la escala de los modelos y sus capacidades multimodales, acelerando el desarrollo del campo de la IA de código abierto.

Información del modelo

La serie Qwen2 incluye cinco modelos básicos y de ajuste fino de instrucciones de diferentes tamaños: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B y Qwen2-72B. A continuación, se muestra la información clave de cada modelo en la tabla:

Modelo	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
# Parámetros	49 millones	154 millones	7.07B	57.41B	72.71B
# Parámetros sin Embeddings	35 millones	1.31B	598 millones	56.32B	70.21B
Aseguramiento de calidad	Verdadero	Verdadero	Verdadero	Verdadero	Verdadero
Tying embeddings	Verdadero	Verdadero	Falso	Falso	Falso
Longitud de contexto	32K	32K	128K	64K	128K

Específicamente, en Qwen1.5, solo Qwen1.5-32B y Qwen1.5-110B utilizaban Group Query Attention (GQA). Esta vez, hemos aplicado GQA a todos los tamaños de modelo para que puedan beneficiarse de una velocidad de inferencia más rápida y un menor consumo de memoria. Para los modelos pequeños, preferimos usar tying embeddings, ya que los embeddings grandes y dispersos representan una parte significativa de los parámetros totales del modelo.

En cuanto a la longitud del contexto, todos los modelos de lenguaje básicos se han preentrenado con datos de longitud de contexto de 32K tokens, y hemos observado una capacidad de extrapolación satisfactoria hasta 128K en la evaluación de PPL. Sin embargo, para los modelos de ajuste fino de instrucciones, no nos conformamos con la simple evaluación de PPL; necesitamos que el modelo comprenda correctamente el contexto largo y realice la tarea. En la tabla, se muestra la capacidad de longitud de contexto de los modelos de ajuste fino de instrucciones, evaluada mediante la evaluación de la tarea Needle in a Haystack. Cabe destacar que, cuando se mejora con YARN, los modelos Qwen2-7B-Instruct y Qwen2-72B-Instruct muestran una impresionante capacidad para manejar longitudes de contexto de hasta 128K tokens.

Hemos realizado un gran esfuerzo para aumentar la cantidad y la calidad de los conjuntos de datos de preentrenamiento y ajuste fino de instrucciones, que abarcan varios idiomas además del inglés y el chino, para mejorar su capacidad multilingüe. Aunque los modelos de lenguaje grandes tienen una capacidad inherente para generalizar a otros idiomas, hemos hecho hincapié en incluir explícitamente 27 idiomas adicionales en nuestro entrenamiento:

Región	Idiomas
Europa Occidental	Alemán, Francés, Español, Portugués, Italiano, Neerlandés
Europa Central y Oriental	Ruso, Checo, Polaco
Oriente Medio	Árabe, Persa, Hebreo, Turco
Asia Oriental	Japonés, Coreano
Sureste Asiático	Vietnamita, Tailandés, Indonesio, Malayo, Lao, Birmano, Cebuano, Jemer, Tagalo
Asia Meridional	Hindi, Bengalí, Urdu

Además, hemos dedicado mucho esfuerzo a resolver los problemas de cambio de código que suelen aparecer en la evaluación multilingüe. Por lo tanto, la capacidad de nuestros modelos para manejar este fenómeno ha mejorado significativamente. Las evaluaciones realizadas con indicaciones que normalmente provocan cambios de código entre idiomas confirman una reducción significativa de los problemas relacionados.

Rendimiento

Los resultados de las pruebas comparativas muestran una mejora significativa en el rendimiento de los modelos a gran escala (70B+ parámetros) en comparación con Qwen1.5. Esta prueba se centra en el modelo a gran escala Qwen2-72B. En cuanto a los modelos de lenguaje básicos, hemos comparado Qwen2-72B con los mejores modelos abiertos actuales en cuanto a rendimiento en comprensión del lenguaje natural, adquisición de conocimientos, capacidad de programación, capacidad matemática y capacidad multilingüe. Gracias a la cuidadosa selección de conjuntos de datos y métodos de entrenamiento optimizados, Qwen2-72B supera a modelos líderes como Llama-3-70B, e incluso supera a la generación anterior, Qwen1.5-110B, con una menor cantidad de parámetros.

Después de un extenso preentrenamiento a gran escala, realizamos un post-entrenamiento para mejorar aún más la inteligencia de Qwen y acercarla a la de los humanos. Este proceso mejora aún más las capacidades del modelo en codificación, matemáticas, razonamiento, seguimiento de instrucciones y comprensión multilingüe. Además, alinea la salida del modelo con los valores humanos, asegurando que sea útil, honesto e inofensivo. Nuestra fase de post-entrenamiento está diseñada con el principio de entrenamiento escalable y anotación humana mínima. Específicamente, investigamos cómo obtener datos de demostración y datos de preferencia de alta calidad, fiables, diversos y creativos a través de diversas estrategias de alineación automática, como el muestreo de rechazo para matemáticas, la retroalimentación de ejecución para codificación y seguimiento de instrucciones, la traducción inversa para escritura creativa y la supervisión escalable para juegos de rol. En cuanto al entrenamiento, hemos utilizado una combinación de ajuste fino supervisado, entrenamiento de modelos de recompensa y entrenamiento DPO en línea. También hemos adoptado un novedoso optimizador de fusión en línea para minimizar el impuesto de alineación. Estos esfuerzos conjuntos han mejorado significativamente las capacidades e inteligencia de nuestro modelo, como se muestra en la tabla siguiente.

Hemos realizado una evaluación exhaustiva de Qwen2-72B-Instruct, que abarca 16 pruebas de referencia en diversas áreas. Qwen2-72B-Instruct logra un equilibrio entre obtener mejores capacidades y mantenerse alineado con los valores humanos. Específicamente, Qwen2-72B-Instruct supera significativamente a Qwen1.5-72B-Chat en todas las pruebas de referencia, y también alcanza un rendimiento competitivo en comparación con Llama-3-70B-Instruct.

En los modelos más pequeños, nuestros modelos Qwen2 también superan a los modelos SOTA de tamaño similar o incluso mayor. En comparación con los modelos SOTA recién lanzados, Qwen2-7B-Instruct sigue mostrando ventajas en varias pruebas de referencia, destacando especialmente en codificación e indicadores relacionados con el chino.

Aspectos destacados

Codificación y matemáticas

Siempre nos hemos dedicado a mejorar las funciones avanzadas de Qwen, especialmente en codificación y matemáticas. En cuanto a la codificación, hemos integrado con éxito la experiencia y los datos de entrenamiento de código de CodeQwen1.5, lo que ha permitido que Qwen2-72B-Instruct mejore significativamente en varios lenguajes de programación. En matemáticas, al utilizar conjuntos de datos amplios y de alta calidad, Qwen2-72B-Instruct ha demostrado una mayor capacidad para resolver problemas matemáticos.

Comprensión de contextos largos

En Qwen2, todos los modelos de ajuste fino de instrucciones se entrenaron en un contexto de 32k de longitud y se extrapolan a longitudes de contexto más largas utilizando técnicas como YARN o Dual Chunk Attention.

La siguiente figura muestra los resultados de nuestras pruebas en Needle in a Haystack. Es notable que Qwen2-72B-Instruct puede manejar perfectamente las tareas de extracción de información en un contexto de 128k, y junto con su potente rendimiento inherente, se convierte en la mejor opción para manejar tareas de texto largo con recursos suficientes.

Además, cabe destacar la impresionante capacidad de otros modelos de la serie: Qwen2-7B-Instruct maneja casi perfectamente contextos de hasta 128k, Qwen2-57B-A14B-Instruct maneja contextos de hasta 64k, mientras que los dos modelos más pequeños de la serie admiten contextos de 32k.

Además de los modelos de contexto largo, también hemos lanzado una solución de proxy para manejar eficientemente documentos con hasta 1 millón de tokens. Para obtener más detalles, consulte nuestra entrada de blog específica sobre este tema.

Seguridad y responsabilidad

La siguiente tabla muestra el porcentaje de respuestas dañinas generadas por los modelos grandes para cuatro tipos de consultas multilingües inseguras (actividades ilegales, fraude, pornografía, violencia de privacidad). Los datos de prueba provienen de Jailbreak y se traducen a varios idiomas para su evaluación. Hemos observado que Llama-3 no puede manejar eficazmente las indicaciones multilingües, por lo que no se incluye en la comparación. Mediante la prueba de significancia (P_value), encontramos que el modelo Qwen2-72B-Instruct tiene un rendimiento comparable a GPT-4 en seguridad y supera significativamente al modelo Mistral-8x22B.

Idioma		Actividades ilegales			Fraude			Pornografía			Violencia de privacidad
	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct
Chino	0%	13%	0%	0%	17%	0%	43%	47%	53%	0%	10%	0%
Inglés	0%	7%	0%	0%	23%	0%	37%	67%	63%	0%	27%	3%
Español	0%	13%	0%	0%	7%	0%	15%	26%	15%	3%	13%	0%
Español	0%	7%	0%	3%	0%	0%	48%	64%	50%	3%	7%	3%
Francés	0%	3%	0%	3%	3%	7%	3%	19%	7%	0%	27%	0%
Coreano	0%	4%	0%	3%	8%	4%	17%	29%	10%	0%	26%	4%
Vietnamita	0%	7%	0%	3%	7%	3%	47%	57%	47%	4%	26%	4%
Japonés	0%	10%	0%	7%	23%	3%	13%	17%	10%	13%	7%	7%
Tailandés	0%	4%	0%	4%	11%	0%	22%	26%	22%	0%	0%	0%
Promedio	0%	8%	0%	3%	11%	2%	27%	39%	31%	3%	16%	2%

Desarrollo con Qwen2

Actualmente, todos los modelos se han lanzado en Hugging Face y ModelScope. Le invitamos a visitar la tarjeta del modelo para ver las instrucciones de uso detalladas y obtener más información sobre las características, el rendimiento y otros aspectos de cada modelo.

Durante mucho tiempo, muchos amigos han apoyado el desarrollo de Qwen, incluyendo el ajuste fino (Axolotl, Llama-Factory, Firefly, Swift, XTuner), la cuantificación (AutoGPTQ, AutoAWQ, Neural Compressor), la implementación (vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino, TGI), las plataformas de API (Together, Fireworks, OpenRouter), la ejecución local (MLX, Llama.cpp, Ollama, LM Studio), los frameworks de agentes y RAG (LlamaIndex, CrewAI, OpenDevin), la evaluación (LMSys, OpenCompass, Open LLM Leaderboard), el entrenamiento de modelos (Dolphin, Openbuddy), etc. Para obtener información sobre cómo usar Qwen2 con frameworks de terceros, consulte la documentación correspondiente y nuestra documentación oficial.

Hay muchos equipos e individuos que han contribuido a Qwen que no hemos mencionado. Agradecemos sinceramente su apoyo y esperamos que nuestra colaboración pueda promover la investigación y el desarrollo de la comunidad de IA de código abierto.

Noticias de IA

Aparece el modelo de lenguaje grande de código abierto más potente de Alibaba: lanzamiento de Qwen2 de Tongyi Qianwen

aibase