A equipe do modelo de linguagem grande Doubao, da ByteDance, anunciou recentemente que superou com sucesso os gargalos críticos da arquitetura de modelo de especialista misto (MoE) e lançou uma importante tecnologia de otimização chamada COMET. Essa tecnologia melhora significativamente a eficiência do treinamento de modelos de linguagem grandes, alcançando uma melhoria de até 1,7 vezes na eficiência e reduzindo os custos de treinamento em 40%.

Robô lendo um livro

Observação da fonte: A imagem foi gerada por IA, fornecida pela Midjourney.

Segundo informações, a tecnologia COMET já foi aplicada em treinamento de cluster de várias GPUs na ByteDance, economizando milhões de horas de computação de GPU. Em comparação com soluções de otimização MoE de código aberto recentes, como DualPipe da DeepSeek, o COMET possui compatibilidade e conveniência superiores, podendo ser integrado a estruturas de treinamento MoE existentes como um plug-in, suportando os principais modelos de linguagem grandes do setor sem modificações invasivas na estrutura de treinamento.

Dados técnicos mostram que, com a introdução do COMET, uma única camada MoE pode alcançar uma aceleração de 1,96 vezes, com uma melhoria média de eficiência ponta a ponta de 1,71 vezes, apresentando desempenho estável em diferentes estratégias de paralelismo, escalas de entrada e ambientes de hardware. Mais importante ainda, o COMET também pode ser usado em conjunto com a solução DualPipe da DeepSeek, esperando-se uma redução ainda maior nos custos de treinamento do modelo.

A disponibilização de código aberto desta tecnologia, sem dúvida, trouxe uma nova inovação para o campo dos modelos de linguagem grandes, podendo acelerar o desenvolvimento e a aplicação de modelos de linguagem grandes.

Endereço do artigo:https://arxiv.org/pdf/2502.19811

Endereço do código aberto:https://github.com/bytedance/flux?continueFlag=c1d74dd2912ab3909a1a27fe4f5cf519