Die Taotian Group und Ai Cheng Technology haben gemeinsam das Large-Language-Model-Trainingsframework Megatron-LLaMA Open Source veröffentlicht. Ziel ist es, die Trainingsleistung großer Sprachmodelle zu verbessern, die Trainingskosten zu senken und die Kompatibilität mit der LLaMA-Community zu gewährleisten. Das Framework erreicht auf 32 Karten eine Beschleunigung von 176 % und zeigt eine hohe Toleranz gegenüber Netzwerkinstabilitäten. Megatron-LLaMA konzentriert sich auf die adaptive Auswahl optimaler Konfigurationen, die Unterstützung von Änderungen der Modellstruktur und hochperformante Trainingslösungen in verschiedenen Hardwareumgebungen.