Dans le domaine de l'intelligence artificielle, l'entraînement de grands modèles de langage (LLM) est devenu une voie majeure de progrès technologique. Cependant, avec l'augmentation constante de la taille des modèles et des ensembles de données, les méthodes d'optimisation traditionnelles – notamment AdamW – montrent progressivement leurs limites. Les chercheurs sont confrontés à une série de défis, notamment des coûts de calcul élevés, une instabilité de l'entraînement, des problèmes de disparition ou d'explosion de gradients, des mises à jour incohérentes des matrices de paramètres et des besoins importants en ressources dans les environnements distribués. Par conséquent, des techniques d'optimisation plus efficaces et plus stables sont nécessaires pour faire face à ces complexités.

Pour relever ces défis, Moonshot AI (Côté obscur de la Lune) et l'Université de Californie à Los Angeles (UCLA) ont développé conjointement Moonlight, un modèle Mixture-of-Expert (MoE) utilisant l'optimiseur Muon. Moonlight est disponible en deux configurations : une avec 3 milliards de paramètres activés et une autre avec 16 milliards de paramètres au total, entraînées sur 5,7 billions de jetons. L'innovation de l'optimiseur Muon réside dans l'utilisation de la méthode itérative de Newton-Schulz pour l'orthogonalisation matricielle, garantissant ainsi l'homogénéité des mises à jour de gradient dans l'espace des paramètres du modèle. Cette amélioration offre une alternative prometteuse à l'AdamW traditionnel, améliorant l'efficacité et la stabilité de l'entraînement.

QQ_1740360210200.png

Sur le plan technique, deux ajustements clés ont été apportés à l'optimiseur Muon dans Moonlight. Premièrement, une technique de régularisation des poids a été introduite pour contrôler la croissance des poids lors de l'entraînement de grands modèles avec un grand nombre de jetons. Deuxièmement, l'amplitude de la mise à jour pour chaque paramètre a été calibrée en la faisant évoluer en fonction de la racine carrée de la plus grande dimension de la matrice de poids, assurant ainsi la cohérence des mises à jour.

Grâce à une évaluation empirique de Moonlight, les chercheurs ont constaté que ses performances aux points de contrôle intermédiaires étaient supérieures à celles des modèles entraînés avec l'AdamW traditionnel. Par exemple, dans les tâches de compréhension du langage, Moonlight a obtenu des scores plus élevés sur le benchmark MMLU. L'amélioration des performances est encore plus marquée dans les tâches de génération de code, ce qui indique que le mécanisme d'optimisation de Muon contribue positivement aux performances des tâches.

La mise en œuvre réussie du projet Moonlight établira une nouvelle norme pour l'entraînement des grands modèles de langage. La publication en open source de l'optimiseur Muon, ainsi que des modèles pré-entraînés et des points de contrôle intermédiaires, devrait stimuler la recherche sur les techniques d'optimisation évolutives.

github:https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file

huggingface:https://huggingface.co/moonshotai/Moonlight-16B-A3B

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

Points clés :

🌟 Le modèle Moonlight est un modèle Mixture-of-Expert développé conjointement par Moonshot AI et l'UCLA, disponible en configurations 3 milliards et 16 milliards de paramètres, entraîné sur 5,7 billions de jetons.

⚙️ L'optimiseur Muon, grâce à la méthode itérative de Newton-Schulz et à la régularisation des poids, améliore considérablement l'efficacité et la stabilité de l'entraînement des grands modèles.

📈 Les résultats empiriques montrent que Moonlight surpasse les modèles entraînés avec l'AdamW traditionnel sur plusieurs tâches, démontrant de meilleures capacités de compréhension du langage et de génération de code.