Une nouvelle arme puissante fait son apparition dans le domaine du calcul intensif ! Moore Threads annonce aujourd'hui avec force le lancement en open source de ses deux frameworks d'IA, MT-MegatronLM et MT-TransformerEngine. Cette initiative apportera un puissant soutien aux infrastructures de calcul nationales. Grâce à l'intégration approfondie de la stratégie d'entraînement hybride FP8 et d'une bibliothèque d'opérateurs hautes performances, ces deux frameworks réussissent à réaliser un entraînement et une inférence parallèles hybrides sur les GPU nationaux multifonctions, améliorant considérablement l'efficacité et la stabilité de l'entraînement des grands modèles.
Le framework MT-MegatronLM, lancé en open source par Moore Threads, est spécialement conçu pour les GPU multifonctions. Il prend en charge l'entraînement efficace des modèles denses, des modèles multimodaux et des modèles MoE (Mixture of Experts), répondant ainsi aux besoins diversifiés de l'entraînement dans le domaine de l'IA actuel. Quant à MT-TransformerEngine, il se concentre sur l'optimisation de l'entraînement et de l'inférence des modèles Transformer. Grâce à des techniques telles que la fusion d'opérateurs et des stratégies d'accélération parallèle, il libère efficacement le potentiel de calcul haute densité des GPU multifonctions de Moore Threads, améliorant considérablement l'efficacité des opérateurs liés à la mémoire.
Les avancées technologiques de ces deux frameworks reposent sur une synergie profonde entre l'adaptation matérielle et l'innovation algorithmique. Premièrement, ils prennent en charge l'entraînement parallèle hybride de plusieurs types de modèles, capables de gérer les scénarios de calcul complexes de différentes architectures de modèles ; deuxièmement, en combinant la stratégie d'entraînement de précision mixte FP8 nativement supportée par les GPU Moore Threads, ils améliorent efficacement l'efficacité de l'entraînement ; troisièmement, grâce à l'intégration approfondie de la bibliothèque d'opérateurs hautes performances muDNN et de la bibliothèque de communication MCCL, ils optimisent systématiquement les tâches gourmandes en calcul et les frais de communication de la collaboration multi-cartes ; de plus, en combinaison avec la bibliothèque open source Simumax, ils permettent une recherche automatique de stratégies parallèles et optimisent les performances d'entraînement parallèle pour différents modèles et environnements d'accélération ; enfin, le mécanisme de reprise d'exception intégré aux frameworks permet de revenir automatiquement au dernier nœud stable pour poursuivre l'entraînement, améliorant considérablement la stabilité de l'entraînement à grande échelle ; enfin, les deux frameworks sont compatibles avec l'écosystème principal des GPU, garantissant une migration transparente de l'écosystème existant et offrant aux développeurs un support de base pour construire leur propre pile technologique IA.
En pratique, les performances de ces deux frameworks sont impressionnantes. Sur un cluster de GPU multifonctions, la tâche d'entraînement du modèle Llama38B utilisant la technologie FP8 atteint un MFU (taux d'utilisation du débit du modèle) supérieur à 90 % avec une perte presque nulle, soit une amélioration de 28 % de la vitesse d'entraînement par rapport à la méthode précédente. De plus, Moore Threads a intégré en profondeur et mis en open source une prise en charge efficace de l'algorithme parallèle DeepSeek DualPipe. Après intégration complète dans les frameworks MT-Megatron et MT-TransformerEngine, MT-DualPipe a réussi à reproduire complètement le processus d'entraînement DeepSeek V3, prenant en charge MLA, MTP et plusieurs stratégies d'équilibrage des experts. Grâce à diverses techniques de fusion d'opérateurs Transformer, ces frameworks améliorent considérablement le taux d'utilisation de la bande passante mémoire, atténuant efficacement les goulots d'étranglement liés à la mémoire et libérant davantage le potentiel matériel des GPU nationaux.
Moore Threads indique qu'il continuera à optimiser ces deux frameworks et prévoit d'introduire une série de nouvelles fonctionnalités : des stratégies parallèles Dual Pipe/ZeroBubble pour réduire encore le taux de bulles et améliorer l'efficacité de l'entraînement parallèle ; plusieurs stratégies d'optimisation FP8 originales pour améliorer les performances et la stabilité de l'entraînement ; une stratégie de point de contrôle asynchrone pour améliorer la tolérance aux pannes et l'efficacité du processus d'entraînement ; une stratégie de recalcul optimisée pour réduire les coûts de calcul et de mémoire vive et accélérer l'entraînement ; un algorithme d'entraînement tolérant aux pannes original pour améliorer la tolérance aux pannes pendant le processus d'entraînement ; et l'intégration des bibliothèques Moore Threads FlashMLA et DeepGemm pour libérer davantage la puissance de calcul et les capacités de calcul FP8 des GPU Moore Threads, améliorant ainsi globalement les performances et l'efficacité du calcul.
Cette série de percées technologiques et d'initiatives open source démontre non seulement la puissance de Moore Threads dans le domaine de la puissance de calcul de l'IA, mais ouvre également de nouvelles possibilités pour le développement des infrastructures IA nationales. Attendons avec impatience les prochaines avancées qu'elle apportera dans le domaine de l'entraînement des modèles IA.