¡El campo de la computación profunda cuenta con una nueva herramienta poderosa! Moore Threads anunció hoy el lanzamiento de código abierto de dos importantes frameworks de IA: MT-MegatronLM y MT-TransformerEngine. Esta iniciativa inyectará un fuerte impulso a la infraestructura de computación nacional. Estos dos frameworks, mediante la profunda integración de la estrategia de entrenamiento híbrido FP8 y una biblioteca de operadores de alto rendimiento, han logrado con éxito el entrenamiento e inferencia paralelos híbridos en GPU nacionales de funciones completas, mejorando significativamente la eficiencia y la estabilidad del entrenamiento de modelos grandes.

El framework MT-MegatronLM, de código abierto por Moore Threads, está diseñado específicamente para GPU de funciones completas y admite el entrenamiento eficiente de modelos densos, modelos multimodales y modelos MoE (expertos mixtos), satisfaciendo las diversas necesidades de entrenamiento del campo de la IA actual. Por otro lado, MT-TransformerEngine se centra en la optimización del entrenamiento e inferencia de modelos Transformer. Mediante técnicas como la fusión de operadores y estrategias de aceleración paralela, libera eficazmente el potencial de cálculo de alta densidad de las GPU de funciones completas de Moore Threads, mejorando significativamente la eficiencia de los operadores limitados por memoria (memory bound).

image.png

Los avances tecnológicos de estos dos frameworks se basan en la profunda colaboración entre la adaptación de hardware y la innovación algorítmica. En primer lugar, admiten el entrenamiento paralelo híbrido de varios tipos de modelos, pudiendo gestionar de forma flexible escenarios de cálculo complejos con diferentes arquitecturas de modelos. En segundo lugar, combinados con la estrategia de entrenamiento de precisión mixta FP8 compatible de forma nativa con las GPU de Moore Threads, mejoran eficazmente la eficiencia del entrenamiento. En tercer lugar, mediante la integración profunda de la biblioteca de operadores de alto rendimiento muDNN y la biblioteca de comunicación MCCL, optimizan sistemáticamente las tareas intensivas en computación y los costes de comunicación de la colaboración entre múltiples tarjetas. Al mismo tiempo, en combinación con la biblioteca de código abierto Simumax, pueden buscar automáticamente estrategias paralelas y maximizar el rendimiento del entrenamiento paralelo para diferentes modelos y entornos de aceleración. Además, el mecanismo de recuperación de excepciones de rebobinado integrado en el framework puede retroceder automáticamente al último nodo estable para continuar el entrenamiento, mejorando significativamente la estabilidad del entrenamiento a gran escala. Finalmente, ambos frameworks son compatibles con el ecosistema principal de GPU, garantizando una migración fluida del ecosistema existente y proporcionando soporte de nivel inferior a los desarrolladores para construir sus propios conjuntos de herramientas de IA.

image.png

En aplicaciones reales, el rendimiento de estos dos frameworks es impresionante. En un clúster de GPU de funciones completas, la tarea de entrenamiento del modelo Llama38B, utilizando la tecnología FP8, alcanza una MFU (tasa de utilización de rendimiento del modelo) superior al 90% con una pérdida de precisión casi insignificante, lo que representa una mejora del 28% en la velocidad de entrenamiento en comparación con la anterior. Además, Moore Threads ha integrado profundamente y ha lanzado de código abierto el soporte eficiente para el algoritmo paralelo DeepSeek DualPipe. Después de la integración completa de MT-DualPipe en los frameworks MT-Megatron y MT-TransformerEngine, se ha logrado con éxito la reproducción completa del flujo de entrenamiento DeepSeek V3, que admite MLA, MTP y varias estrategias de equilibrio de expertos. Mediante diversas técnicas de fusión de operadores Transformer, estos frameworks mejoran significativamente la utilización del ancho de banda de memoria, aliviando eficazmente el cuello de botella de memoria y liberando aún más el potencial de hardware de las GPU nacionales.

Moore Threads ha indicado que continuará optimizando estos dos frameworks y planea introducir una serie de nuevas funciones: estrategias paralelas Dual Pipe/ZeroBubble para reducir aún más la tasa de burbujas y mejorar la eficiencia del entrenamiento paralelo; varias estrategias de optimización FP8 originales para mejorar el rendimiento y la estabilidad del entrenamiento; estrategias de puntos de control asíncronos para mejorar la tolerancia a fallos y la eficiencia durante el entrenamiento; estrategias de recalculo optimizadas para reducir el consumo de cálculo y memoria y aumentar la velocidad de entrenamiento; algoritmos de entrenamiento tolerantes a fallos originales para mejorar la tolerancia a fallos durante el entrenamiento; e integración de las bibliotecas Moore Threads FlashMLA y DeepGemm para liberar aún más la potencia de cálculo y la capacidad de cálculo FP8 de las GPU de Moore Threads, mejorando en general el rendimiento y la eficiencia del cálculo.

Estos avances tecnológicos y las iniciativas de código abierto no solo muestran la fortaleza de Moore Threads en el campo de la potencia de cálculo de IA, sino que también abren nuevas posibilidades para el desarrollo de la infraestructura de IA nacional. Esperemos con interés los mayores avances que aportará en el campo del entrenamiento de modelos de IA.