Taotian Group et Ai Cheng Technology ont publié en open source le framework d'entraînement de grands modèles Megatron-LLaMA, visant à améliorer les performances d'entraînement des grands modèles linguistiques, à réduire les coûts de formation et à maintenir la compatibilité avec la communauté LLaMA. Le framework permet une accélération de 176 % lors de l'entraînement sur 32 cartes, et présente une grande tolérance aux instabilités du réseau. Megatron-LLaMA se concentrera sur la sélection optimale et adaptative des configurations, la prise en charge des modifications de la structure du modèle et des solutions d'entraînement aux performances optimales dans différents environnements matériels.