Hoje, a DeepSeek, empresa líder em inteligência artificial na China, divulgou oficialmente os resultados do quarto dia de seu projeto de código aberto — Estratégias de Paralelismo Otimizadas (Optimized Parallelism Strategies), apresentando principalmente o algoritmo de paralelismo de pipeline bidirecional DualPipe, o balanceador de carga paralelo de especialistas EPLB e otimizações profundas no mecanismo de sobreposição de computação e comunicação. Esta atualização tecnológica aborda diretamente os principais desafios do treinamento de modelos de linguagem em larga escala, oferecendo uma nova solução para a operação eficiente de clusters com mais de 10.000 placas de vídeo.

QQ20250227-102104.png

1. DualPipe: Algoritmo de Paralelismo de Pipeline Bidirecional

Como uma das tecnologias principais desta atualização, o DualPipe foi projetado especificamente para a arquitetura V3/R1. Através de um inovador pipeline de fluxo de dados bidirecional, ele permite uma alta sobreposição de computação e comunicação. Em comparação com pipelines unidirecionais tradicionais, esta tecnologia pode melhorar significativamente a taxa de transferência de computação, especialmente para o treinamento de modelos com escala de parâmetros de centenas de bilhões a trilhões. O repositório de código GitHub mostra que o DualPipe, por meio de um mecanismo de programação inteligente, executa cálculos diretos simultaneamente na fase de retropropagação, aumentando a utilização do hardware em cerca de 30%.

(Link do projeto: https://github.com/deepseek-ai/DualPipe).

2. EPLB: Balanceador de Carga Dinâmico

Para o problema de "especialistas em destaque" no treinamento de modelos de especialistas mistos (MoE), a tecnologia EPLB realiza pela primeira vez o balanceamento de carga dinâmico de paralelismo de especialistas. Os métodos tradicionais, devido à distribuição desigual de tarefas de especialistas, costumam levar à sobrecarga de algumas placas de computação. O EPLB, por meio de monitoramento em tempo real e alocação adaptativa, aumenta a taxa de utilização geral de clusters com mais de 10.000 placas de vídeo para mais de 92%, evitando eficazmente o desperdício de recursos (Link do projeto: https://github.com/deepseek-ai/EPLB).

3. Otimização da Sobreposição de Computação e Comunicação

Com base na ferramenta de análise de sobreposição de comunicação da arquitetura V3/R1, a DeepSeek construiu pela primeira vez um modelo de eficiência espaço-temporal de paralelismo 3D (paralelismo de dados/pipeline/tensor). Por meio do conjunto de dados de análise de código aberto (link: https://github.com/deepseek-ai/profile-data), os desenvolvedores podem localizar com precisão os pontos de conflito entre computação e comunicação, fornecendo uma referência de ajuste para o treinamento de modelos em larga escala. De acordo com os testes, o tempo de treinamento de ponta a ponta pode ser reduzido em cerca de 15%.

Impacto na Indústria: Quebrando o Gargalo do Treinamento de Modelos de Grande Escala

Este lançamento tecnológico gerou grande atenção da indústria. Especialistas apontam que a inovação combinada do DualPipe e do EPLB responde diretamente a dois grandes desafios no treinamento de modelos de grande escala: primeiro, com o crescimento exponencial do tamanho dos modelos, o gargalo de escalabilidade das estratégias de paralelismo tradicionais está se tornando cada vez mais evidente; segundo, a popularização dos modelos de especialistas mistos torna o balanceamento de carga dinâmico uma necessidade premente. Um responsável técnico de uma empresa de computação em nuvem comentou: "Essas ferramentas reduzirão significativamente o custo de hardware para o treinamento de modelos de centenas de bilhões de parâmetros, e espera-se que reduzam os custos de treinamento em 20% a 30%."

O CTO da DeepSeek enfatizou na documentação técnica que as estratégias de código aberto foram validadas em vários treinamentos de modelos de centenas de bilhões de parâmetros internos e continuarão a ser iteradas e otimizadas. Atualmente, as três tecnologias estão disponíveis em código aberto no GitHub e suportam a aplicação personalizada pelos desenvolvedores em diferentes ambientes de hardware.

Com a competição global de IA entrando na fase de "decisão de escala", a DeepSeek, por meio do código aberto de tecnologias-chave durante quatro dias consecutivos, não apenas demonstra a força tecnológica das empresas de IA chinesas, mas também fornece infraestrutura reutilizável para a indústria. Esta inovação tecnológica impulsionada pela "colaboração aberta" pode remodelar o ecossistema industrial do treinamento de modelos de grande escala.