Na madrugada de hoje, a equipe do Alibaba Tongyi Qianwen lançou os modelos de código aberto da série Qwen2. Esta série inclui cinco modelos de pré-treinamento e ajuste de instruções de diferentes tamanhos: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e Qwen2-72B. Informações-chave mostram que esses modelos apresentam um aumento significativo no número de parâmetros e no desempenho em comparação com a geração anterior, Qwen1.5.

Quanto à capacidade multilíngue dos modelos, a série Qwen2 dedicou muito esforço ao aumento da quantidade e da qualidade dos conjuntos de dados, abrangendo 27 outros idiomas além do inglês e do chinês. Em testes comparativos, os modelos grandes (70B+ parâmetros) apresentaram excelente desempenho em compreensão de linguagem natural, codificação e habilidades matemáticas, com o modelo Qwen2-72B superando a geração anterior em desempenho e número de parâmetros.

Os modelos Qwen2 não apenas demonstraram capacidades excepcionais na avaliação de modelos de linguagem básicos, mas também obtiveram resultados notáveis na avaliação de modelos de ajuste de instruções. Sua capacidade multilíngue se destacou em benchmarks como M-MMLU e MGSM, mostrando o grande potencial dos modelos Qwen2 de ajuste de instruções.

O lançamento da série de modelos Qwen2 marca um novo marco na tecnologia de inteligência artificial, abrindo amplas possibilidades para aplicações e comercialização de IA em todo o mundo. No futuro, o Qwen2 expandirá ainda mais a escala do modelo e suas capacidades multimodais, acelerando o desenvolvimento do campo da IA de código aberto.

Informações do Modelo

A série Qwen2 inclui cinco modelos básicos e de ajuste de instruções de diferentes tamanhos: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e Qwen2-72B. As informações-chave de cada modelo são descritas na tabela abaixo:

ModeloQwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B
# Parâmetros49 milhões154 milhões7,07B57,41B72,71B
# Parâmetros não Emb35 milhões1,31B598 milhões56,32B70,21B
A garantia de qualidadeVerdadeiroVerdadeiroVerdadeiroVerdadeiroVerdadeiro
Embeddings ligadosVerdadeiroVerdadeiroFalsoFalsoFalso
Comprimento do contexto32K32K128K64K128K

Especificamente, no Qwen1.5, apenas o Qwen1.5-32B e o Qwen1.5-110B usaram Group Query Attention (GQA). Desta vez, aplicamos o GQA a todos os tamanhos de modelo para que eles possam desfrutar de velocidades mais rápidas e menor consumo de memória durante a inferência do modelo. Para modelos menores, preferimos usar embeddings ligados, pois os embeddings grandes e esparsos representam uma grande parte dos parâmetros totais do modelo.

Em termos de comprimento do contexto, todos os modelos de linguagem básicos foram pré-treinados em dados com comprimento de contexto de 32K tokens, e observamos uma capacidade de extrapolação satisfatória de até 128K na avaliação PPL. No entanto, para modelos de ajuste de instruções, não nos contentamos apenas com a avaliação PPL; precisamos que o modelo consiga entender corretamente contextos longos e concluir as tarefas. Na tabela, listamos a capacidade de comprimento de contexto dos modelos de ajuste de instruções, que foi avaliada por meio de uma avaliação da tarefa Needle in a Haystack. É digno de nota que, quando aprimorados com YARN, os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct demonstram uma capacidade impressionante de lidar com comprimentos de contexto de até 128K tokens.

Esforços significativos foram dedicados ao aumento da quantidade e da qualidade dos conjuntos de dados de pré-treinamento e ajuste de instruções, abrangendo vários idiomas além do inglês e do chinês, para aprimorar sua capacidade multilíngue. Embora os modelos de linguagem grandes possuam uma capacidade inerente de generalização para outros idiomas, enfatizamos explicitamente a inclusão de 27 outros idiomas em nosso treinamento:

RegiãoLínguas
Europa OcidentalAlemão, Francês, Espanhol, Português, Italiano, Holandês
Europa Oriental e CentralRusso, Tcheco, Polonês
Oriente MédioÁrabe, Persa, Hebraico, Turco
Extremo OrienteJaponês, Coreano
Sudeste AsiáticoVietnamita, Tailandês, Indonésio, Malaio, Laosiano, Birmanês, Cebuano, Khmer, Tagalo
Sul da ÁsiaHindi, Bengali, Urdu

Além disso, dedicamos considerável esforço para resolver o problema da conversão de código frequentemente encontrado nas avaliações multilíngues. Portanto, a capacidade de nossos modelos de lidar com esse fenômeno foi significativamente aprimorada. As avaliações realizadas com prompts que normalmente causariam conversão de código entre idiomas confirmaram uma redução significativa nos problemas relacionados.

Desempenho

Os resultados dos testes comparativos mostram uma melhoria significativa no desempenho dos modelos de grande escala (70B+ parâmetros) em comparação com o Qwen1.5. Este teste focou no modelo de grande escala Qwen2-72B. No que diz respeito aos modelos de linguagem básicos, comparamos o Qwen2-72B com os melhores modelos abertos atuais em termos de desempenho em compreensão de linguagem natural, recuperação de conhecimento, capacidade de programação, habilidades matemáticas e capacidade multilíngue. Graças aos conjuntos de dados cuidadosamente selecionados e aos métodos de treinamento otimizados, o Qwen2-72B superou modelos líderes como o Llama-3-70B, e seu desempenho até superou o Qwen1.5-110B da geração anterior, apesar de ter um número menor de parâmetros.

Após um extenso pré-treinamento em grande escala, realizamos um treinamento posterior para aprimorar ainda mais a inteligência do Qwen, aproximando-o mais da inteligência humana. Este processo melhorou ainda mais as capacidades do modelo em codificação, matemática, raciocínio, seguimento de instruções e compreensão multilíngue. Além disso, ele alinha a saída do modelo com os valores humanos, garantindo que seja útil, honesto e inofensivo. Nossa fase de treinamento posterior foi projetada seguindo os princípios de treinamento escalável e anotação mínima manual. Especificamente, pesquisamos como obter dados de demonstração e dados de preferência de alta qualidade, confiáveis, diversos e criativos por meio de várias estratégias de alinhamento automático, como amostragem de rejeição para matemática, feedback de execução para codificação e seguimento de instruções, tradução reversa para escrita criativa, supervisão escalável para interpretação de papéis, etc. Quanto ao treinamento, usamos uma combinação de ajuste supervisionado, treinamento de modelo de recompensa e treinamento DPO online. Também empregamos um novo otimizador de combinação online para minimizar o imposto de alinhamento. Esses esforços conjuntos melhoraram significativamente as capacidades e a inteligência de nossos modelos, conforme mostrado na tabela abaixo.

Realizamos uma avaliação abrangente do Qwen2-72B-Instruct, abrangendo 16 benchmarks em várias áreas. O Qwen2-72B-Instruct alcançou um equilíbrio entre capacidades aprimoradas e alinhamento com os valores humanos. Especificamente, o Qwen2-72B-Instruct superou significativamente o Qwen1.5-72B-Chat em todos os benchmarks e também alcançou desempenho competitivo em comparação com o Llama-3-70B-Instruct.

Em modelos menores, nossos modelos Qwen2 também superam modelos SOTA de tamanho semelhante ou até maior. Em comparação com os modelos SOTA recém-lançados, o Qwen2-7B-Instruct ainda apresenta vantagens em vários benchmarks, especialmente em codificação e métricas relacionadas ao chinês.

Destaques

Codificação e Matemática

Temos nos dedicado a melhorar os recursos avançados do Qwen, especialmente em codificação e matemática. Na codificação, integramos com sucesso a experiência e os dados de treinamento de código do CodeQwen1.5, resultando em melhorias significativas no Qwen2-72B-Instruct em várias linguagens de programação. Em matemática, por meio do uso de conjuntos de dados amplos e de alta qualidade, o Qwen2-72B-Instruct demonstrou capacidades aprimoradas na resolução de problemas matemáticos.

Compreensão de Contexto Longo

No Qwen2, todos os modelos de ajuste de instruções foram treinados em um contexto de comprimento de 32K e extrapolados para comprimentos de contexto maiores usando técnicas como YARN ou Dual Chunk Attention.

A figura abaixo mostra os resultados de nossos testes no Needle in a Haystack. É digno de nota que o Qwen2-72B-Instruct consegue lidar perfeitamente com tarefas de extração de informações em contextos de 128K, e, juntamente com seu desempenho inerentemente poderoso, torna-se a melhor escolha para lidar com tarefas de texto longo em cenários com recursos suficientes.

Além disso, vale destacar os recursos impressionantes de outros modelos da série: o Qwen2-7B-Instruct lida quase perfeitamente com contextos de até 128K, o Qwen2-57B-A14B-Instruct gerencia contextos de até 64K, enquanto os dois modelos menores da série suportam contextos de 32K.

Além dos modelos de contexto longo, também estamos lançando uma solução proxy para lidar eficientemente com documentos contendo até 1 milhão de tokens. Para obter mais detalhes, consulte nosso post de blog dedicado sobre este tópico.

Segurança e Responsabilidade

A tabela abaixo mostra a porcentagem de respostas prejudiciais geradas por modelos de grande escala para quatro categorias de consultas multilíngues inseguras (atividades ilegais, fraude, pornografia, violência de privacidade). Os dados de teste foram extraídos do Jailbreak e traduzidos para vários idiomas para avaliação. Descobrimos que o Llama-3 não consegue lidar efetivamente com prompts multilíngues, portanto, não o incluímos na comparação. Através do teste de significância (P_value), descobrimos que o modelo Qwen2-72B-Instruct apresenta desempenho comparável ao GPT-4 em segurança e supera significativamente o modelo Mistral-8x22B.

LínguaAtividades IlegaisFraudePornografiaViolência de Privacidade
GPT-4Mistral-8x22BQwen2-72B-InstructGPT-4Mistral-8x22BQwen2-72B-InstructGPT-4Mistral-8x22BQwen2-72B-InstructGPT-4Mistral-8x22BQwen2-72B-Instruct
Chinês0%13%0%0%17%0%43%47%53%0%10%0%
Inglês0%7%0%0%23%0%37%67%63%0%27%3%
Espanhol0%13%0%0%7%0%15%26%15%3%13%0%
Português0%7%0%3%0%0%48%64%50%3%7%3%
Francês0%3%0%3%3%7%3%19%7%0%27%0%
Coreano0%4%0%3%8%4%17%29%10%0%26%4%
Alemão0%7%0%3%7%3%47%57%47%4%26%4%
Japonês0%10%0%7%23%3%13%17%10%13%7%7%
Vietnamita0%4%0%4%11%0%22%26%22%0%0%0%
Média0%8%0%3%11%2%27%39%31%3%16%2%

Desenvolvimento com Qwen2

Atualmente, todos os modelos já foram lançados no Hugging Face e no ModelScope. Visite as páginas dos modelos para ver instruções detalhadas de uso e aprender mais sobre as características e o desempenho de cada modelo.

Por muito tempo, muitos amigos apoiaram o desenvolvimento do Qwen, incluindo ajuste fino (Axolotl, Llama-Factory, Firefly, Swift, XTuner), quantização (AutoGPTQ, AutoAWQ, Neural Compressor), implantação (vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino, TGI), plataformas de API (Together, Fireworks, OpenRouter), execução local (MLX, Llama.cpp, Ollama, LM Studio), frameworks de agentes e RAG (LlamaIndex, CrewAI, OpenDevin), avaliação (LMSys, OpenCompass, Open LLM Leaderboard), treinamento de modelos (Dolphin, Openbuddy), etc. Para informações sobre como usar o Qwen2 com frameworks de terceiros, consulte a documentação de cada um e nossa documentação oficial.