A área de computação profunda recebe um novo reforço! A Moore Threads anunciou hoje, com grande destaque, a liberação de código aberto de seus dois principais frameworks de IA, o MT-MegatronLM e o MT-TransformerEngine. Essa iniciativa injetará um forte impulso na infraestrutura de computação nacional. Esses dois frameworks, por meio da profunda integração da estratégia de treinamento híbrido FP8 e da biblioteca de operadores de alto desempenho, conseguiram implementar com sucesso o treinamento e inferência paralelos híbridos em GPUs nacionais de funcionalidades completas, melhorando significativamente a eficiência e a estabilidade do treinamento de grandes modelos.
O framework MT-MegatronLM, lançado pela Moore Threads desta vez em código aberto, foi projetado especificamente para GPUs de funcionalidades completas. Ele suporta o treinamento eficiente de modelos densos, modelos multimodais e modelos MoE (Mixture of Experts), atendendo às diversas necessidades de treinamento do campo atual de IA. Já o MT-TransformerEngine concentra-se na otimização do treinamento e inferência de modelos Transformer. Por meio de técnicas como fusão de operadores e estratégias de aceleração paralela, ele libera efetivamente o potencial de computação de alta densidade das GPUs de funcionalidades completas da Moore Threads, melhorando significativamente a eficiência de operadores limitados por memória (memory bound).
Os avanços tecnológicos desses dois frameworks residem na profunda sinergia entre a adaptação de hardware e a inovação de algoritmos. Primeiro, eles suportam o treinamento paralelo híbrido de vários tipos de modelos, podendo lidar de forma flexível com cenários de computação complexos de diferentes arquiteturas de modelos; segundo, combinando a estratégia de treinamento de precisão mista FP8 suportada nativamente pelas GPUs da Moore Threads, a eficiência do treinamento é significativamente melhorada; terceiro, por meio da integração profunda da biblioteca de operadores de alto desempenho muDNN e da biblioteca de comunicação MCCL, os recursos intensivos de computação e o custo de comunicação da colaboração multicartas são otimizados sistematicamente; simultaneamente, em combinação com a biblioteca Simumax de código aberto, é possível realizar automaticamente a busca de estratégias paralelas e maximizar o desempenho de treinamento paralelo para diferentes modelos e ambientes de aceleração; além disso, o mecanismo de recuperação de exceções de reversão integrado aos frameworks pode automaticamente retroceder para o nó estável mais recente para continuar o treinamento, melhorando significativamente a estabilidade do treinamento em larga escala; finalmente, os dois frameworks são compatíveis com o ecossistema principal de GPUs, garantindo uma migração suave do ecossistema existente e fornecendo suporte de nível inferior para os desenvolvedores construírem suas próprias pilhas de tecnologia de IA.
Em aplicações práticas, o desempenho desses dois frameworks é impressionante. Em um cluster de GPUs de funcionalidades completas, a tarefa de treinamento do modelo Llama38B, utilizando a tecnologia FP8, alcança um MFU (taxa de utilização de throughput do modelo) superior a 90%, com perda quase insignificante, representando um aumento de 28% na velocidade de treinamento em comparação com o método anterior. Além disso, a Moore Threads já integrou profundamente e lançou em código aberto o suporte eficiente ao algoritmo paralelo DeepSeek DualPipe. Após a integração completa do MT-DualPipe nos frameworks MT-Megatron e MT-TransformerEngine, a reprodução completa do processo de treinamento DeepSeek V3 foi realizada com sucesso, suportando MLA, MTP e várias estratégias de equilíbrio de especialistas. Por meio de várias técnicas de fusão de operadores Transformer, esses frameworks melhoram significativamente a utilização da largura de banda de memória, aliviando efetivamente o gargalo de memória (memory bound) e liberando ainda mais o potencial de hardware das GPUs nacionais.
A Moore Threads afirma que continuará otimizando esses dois frameworks e planeja introduzir uma série de novos recursos: incluindo estratégias paralelas Dual Pipe/ZeroBubble para reduzir ainda mais a taxa de bolhas e melhorar a eficiência de treinamento paralelo; várias estratégias de otimização FP8 originais para melhorar o desempenho e a estabilidade do treinamento; estratégia de checkpoint assíncrono para melhorar a capacidade de tolerância a falhas e a eficiência do processo de treinamento; estratégia de recomputação otimizada para reduzir o consumo de computação e memória, aumentando a velocidade de treinamento; algoritmo de treinamento tolerante a falhas original para melhorar a capacidade de tolerância a falhas do processo de treinamento; e a integração das bibliotecas Moore Threads FlashMLA e DeepGemm para liberar ainda mais a capacidade de computação e a capacidade de computação FP8 das GPUs da Moore Threads, melhorando abrangentemente o desempenho e a eficiência da computação.
Essa série de avanços tecnológicos e iniciativas de código aberto não apenas demonstram a força da Moore Threads na área de poder de computação de IA, mas também abrem novas possibilidades para o desenvolvimento da infraestrutura de IA nacional. Aguardamos ansiosamente suas futuras contribuições para o campo de treinamento de modelos de IA.