Ein neuer leistungsstarker Werkzeugkasten für das Deep Computing! Moore Threads gibt heute die wichtige Ankündigung bekannt, die beiden KI-Frameworks MT-MegatronLM und MT-TransformerEngine offiziell Open Source zu stellen. Dieser Schritt wird die heimische Recheninfrastruktur erheblich stärken. Durch die tiefe Integration der FP8-Mischtrainingsstrategie und der Hochleistungs-Operator-Bibliothek erreichen diese beiden Frameworks auf heimischen All-in-One-GPUs ein Misch-Paralleltraining und -Inferenz, wodurch die Effizienz und Stabilität des Trainings großer Modelle deutlich verbessert werden.

Das von Moore Threads Open Source bereitgestellte MT-MegatronLM-Framework wurde speziell für All-in-One-GPUs entwickelt und unterstützt das effiziente Training von Dense-Modellen, multimodalen Modellen und MoE-Modellen (Mixture of Experts), wodurch die vielfältigen Trainingsanforderungen im aktuellen KI-Bereich erfüllt werden. MT-TransformerEngine hingegen konzentriert sich auf die Optimierung des Trainings und der Inferenz von Transformer-Modellen. Durch Techniken wie Operator-Fusion und Parallelbeschleunigungsstrategien wird das Potenzial der hochdichten Berechnung von Moore Threads All-in-One-GPUs effektiv ausgeschöpft und die Effizienz von speichergebundenen Operatoren deutlich verbessert.

image.png

Die technologischen Durchbrüche dieser beiden Frameworks basieren auf der tiefen Synergie aus Hardware-Anpassung und Algorithmus-Innovation. Erstens unterstützen sie das Misch-Paralleltraining verschiedener Modelltypen und können flexibel mit komplexen Rechenszenarien verschiedener Modellarchitekturen umgehen. Zweitens verbessert die von Moore Threads GPUs nativ unterstützte FP8-Mischpräzisionstrainingsstrategie die Trainingseffizienz effektiv. Drittens wird durch die tiefe Integration der Hochleistungs-Operator-Bibliothek muDNN und der Kommunikationsbibliothek MCCL die Berechnung intensiver Aufgaben und der Kommunikationsaufwand der Multi-Kartenzusammenarbeit systematisch optimiert. In Kombination mit der Open-Source-Simumax-Bibliothek kann die Parallelstrategie automatisch durchsucht und die Paralleltrainingsleistung für verschiedene Modelle und Beschleunigungsumgebungen maximiert werden. Darüber hinaus kann der im Framework integrierte Rewind-Ausnahmewiederherstellungsmechanismus automatisch zum letzten stabilen Knoten zurückkehren, um das Training fortzusetzen, wodurch die Stabilität des groß angelegten Trainings erheblich verbessert wird. Schließlich sind die beiden Frameworks mit der gängigen GPU-Ökologie kompatibel, was sowohl die reibungslose Migration der bestehenden Ökologie gewährleistet als auch Entwicklern die Grundlage für den Aufbau eigener KI-Technologie-Stacks bietet.

image.png

In der Praxis sind die Leistungen dieser beiden Frameworks beeindruckend. Bei Trainingsaufgaben des Llama38B-Modells auf einem All-in-One-GPU-Cluster erreicht die MFU (Modell-Durchsatz-Auslastung) mit FP8-Technologie bei nahezu verlustfreiem Loss über 90%, was eine 28%ige Steigerung der Trainingsgeschwindigkeit im Vergleich zum vorherigen Zustand bedeutet. Darüber hinaus hat Moore Threads die effiziente Unterstützung des DeepSeek-Parallelalgorithmus DualPipe tief integriert und Open Source bereitgestellt. Nach der vollständigen Integration von MT-DualPipe in das MT-Megatron-Framework und das MT-TransformerEngine-Framework wurde die vollständige Reproduktion des DeepSeek V3-Trainingsablaufs erfolgreich realisiert, wobei MLA, MTP und verschiedene Expertenausgleichsstrategien unterstützt werden. Durch verschiedene Transformer-Operator-Fusionstechniken verbessern diese Frameworks die Auslastung der Speicherbandbreite deutlich, lindern effektiv den speichergebundenen Engpass und setzen das Hardwarepotenzial von heimischen GPUs weiter frei.

Moore Threads wird diese beiden Frameworks kontinuierlich optimieren und plant die Einführung einer Reihe neuer Funktionen: Dazu gehören Dual Pipe/ZeroBubble-Parallelstrategien zur weiteren Senkung der Blasenrate und zur Verbesserung der Paralleltrainingsleistung; verschiedene innovative FP8-Optimierungsstrategien zur Verbesserung der Leistung und Stabilität des Trainings; asynchrone Checkpoint-Strategien zur Verbesserung der Fehlertoleranz und Effizienz des Trainings; optimierte Neuberechnungsstrategien zur Reduzierung des Rechen- und Speichervolumens und zur Beschleunigung des Trainings; innovative fehlertolerante Trainingsalgorithmen zur Verbesserung der Fehlertoleranz des Trainings; sowie die Integration der Moore Threads FlashMLA- und DeepGemm-Bibliotheken, um die Rechenleistung und die FP8-Rechenleistung von Moore Threads GPUs weiter zu steigern und die Rechenleistung und -effizienz umfassend zu verbessern.

Diese Reihe von technologischen Durchbrüchen und Open-Source-Maßnahmen zeigt nicht nur die Stärke von Moore Threads im Bereich der KI-Rechenleistung, sondern eröffnet auch neue Möglichkeiten für die Entwicklung der heimischen KI-Infrastruktur. Wir dürfen gespannt sein, welche weiteren Durchbrüche im Bereich des KI-Modelltrainings erzielt werden.