Taotian Group et Ai Cheng Technology ont publié en open source le framework d'entraînement de grands modèles Megatron-LLaMA, visant à améliorer les performances d'entraînement des grands modèles linguistiques, à réduire les coûts de formation et à maintenir la compatibilité avec la communauté LLaMA. Le framework permet une accélération de 176 % lors de l'entraînement sur 32 cartes, et présente une grande tolérance aux instabilités du réseau. Megatron-LLaMA se concentrera sur la sélection optimale et adaptative des configurations, la prise en charge des modifications de la structure du modèle et des solutions d'entraînement aux performances optimales dans différents environnements matériels.
淘天集团 et Ai Orange Technology mettent en open source le framework d'entraînement de grands modèles linguistiques Megatron-LLaMA

机器之心
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.