A Deepseek anunciou hoje o seu segundo produto da semana de código aberto: a primeira biblioteca de comunicação EP de código aberto para modelos MoE, que oferece otimização completa para treinamento e inferência de modelos de especialistas mistos.
DeepEP é uma biblioteca de comunicação eficiente, projetada especificamente para especialistas mistos (MoE) e paralelismo de especialistas (EP). Ela visa fornecer alta taxa de transferência e baixa latência para múltiplos núcleos de GPU multi-para-multi, comumente conhecidos como agendamento e combinação MoE.
O DeepEP não apenas suporta operações de baixa precisão, como FP8, mas também é consistente com o algoritmo de gate de restrição de grupo proposto no artigo DeepSeek-V3, otimizando os núcleos de encaminhamento de largura de banda de domínio assimétrico, como o encaminhamento de dados do domínio NVLink para o domínio RDMA. Esses núcleos possuem alta taxa de transferência, sendo ideais para tarefas de preenchimento de treinamento e inferência, e permitem o controle do número de processadores de fluxo.
Para tarefas de decodificação de inferência sensíveis à latência, o DeepEP também inclui um conjunto de núcleos de baixa latência, utilizando RDMA puro para minimizar a latência. Além disso, o DeepEP introduz um método de sobreposição de comunicação-computação baseado em hooks, sem consumir recursos de processador de fluxo.
Em testes de desempenho, o DeepEP foi submetido a vários testes em placas de rede H800 e CX7 InfiniBand 400Gb/s RDMA. Os testes mostraram que os núcleos normais apresentaram excelente desempenho de largura de banda em nós internos e entre nós, enquanto os núcleos de baixa latência atingiram os resultados esperados em termos de latência e largura de banda. Especificamente, os núcleos de baixa latência apresentaram uma latência de 163 microssegundos e uma largura de banda de 46 GB/s ao processar 8 especialistas.
O DeepEP foi amplamente testado e é principalmente compatível com redes InfiniBand, mas teoricamente também pode ser executado em Ethernet convergente (RoCE). Para evitar interferências entre diferentes tipos de tráfego, recomenda-se isolar o tráfego em canais virtuais diferentes, garantindo que os núcleos normais e os núcleos de baixa latência não interfiram uns com os outros.
O DeepEP é uma ferramenta importante que oferece uma solução de comunicação eficiente para modelos de especialistas mistos, com características notáveis como desempenho otimizado, baixa latência e configuração flexível.
Link do projeto: https://x.com/deepseek_ai/status/1894211757604049133
Destaques:
🌟 DeepEP é projetado para modelos de especialistas mistos, fornecendo soluções de comunicação de alta taxa de transferência e baixa latência.
⚙️ Suporta várias operações de baixa precisão e otimiza o desempenho de largura de banda de transferência de dados.
💡 Testado e verificado, o DeepEP é compatível com redes InfiniBand e é adequado para o isolamento e gerenciamento de diferentes tipos de tráfego.