Com a crescente popularização dos modelos de linguagem grandes, a implementação eficiente em ambientes com recursos limitados tornou-se um desafio importante. Para enfrentar esse desafio, a série de modelos de linguagem grandes leves DistilQwen2.5, baseada no Qwen2.5, foi oficialmente lançada. Este modelo utiliza uma inovadora estrutura de destilação de duas camadas, otimizando os dados e a técnica de fusão de parâmetros, não só preservando o desempenho do modelo, mas também reduzindo significativamente o consumo de recursos computacionais.
O sucesso do DistilQwen2.5 se deve à sua exclusiva técnica de destilação de conhecimento. Este processo requer inicialmente uma grande quantidade de dados de instruções de alta qualidade, provenientes de vários conjuntos de dados de código aberto e conjuntos de dados sintéticos privados. Para garantir a diversidade dos dados, a equipe de pesquisa expandiu os dados em chinês e inglês usando o Qwen-max, alcançando assim um equilíbrio entre tarefas e idiomas. Posteriormente, o modelo utiliza a abordagem de "destilação em caixa preta" para expandir, selecionar e reescrever as instruções usando a saída do modelo professor. Este método não apenas melhora a qualidade dos dados, mas também aumenta a capacidade de processamento de múltiplas tarefas do modelo.
Vale ressaltar que o DistilQwen2.5 também introduziu a técnica de destilação em caixa branca, imitando a distribuição de "its" do modelo professor, tornando a aquisição de conhecimento pelo modelo aluno mais eficiente. Esta técnica evita problemas como o consumo de memória da GPU, a lentidão de armazenamento e leitura, comuns na destilação tradicional em caixa branca.
Após testes em vários benchmarks de avaliação de conformidade de instruções reconhecidos, o desempenho do DistilQwen2.5 foi notável, especialmente nos benchmarks AlpacaEval2.0 e MT-Bench. Isso marca uma nova fase no desenvolvimento de modelos de linguagem grandes leves, permitindo uma redução significativa dos custos computacionais sem comprometer o desempenho, impulsionando ainda mais a aplicação da tecnologia de IA em diversos cenários.
O lançamento de código aberto do DistilQwen2.5 também facilitará o trabalho de mais desenvolvedores, permitindo que eles utilizem essa poderosa ferramenta com mais facilidade e contribuam para a popularização da tecnologia de inteligência artificial.