Récemment, le domaine de l'intelligence artificielle a été de nouveau secoué par l'annonce de Moonshot (Lune de miel) qui a publié en open source une nouvelle version optimisée de son optimiseur Muon, réussissant à doubler l'efficacité de calcul par rapport à l'AdamW traditionnel. Le lancement de ce nouvel optimiseur coïncide avec la publication imminente de plusieurs bibliothèques de code par DeepSeek, suscitant un vif intérêt et de nombreuses discussions au sein de l'industrie.
L'optimiseur Muon a été initialement proposé en 2024 par des chercheurs d'OpenAI, Keller Jordan et al., et s'est montré particulièrement performant pour l'entraînement de modèles de petite taille. Cependant, avec l'augmentation de la taille des modèles, les performances du Muon original ont atteint un plateau. L'équipe de Moonshot a donc apporté des améliorations techniques significatives, notamment l'ajout d'une décroissance du poids et des mises à jour RMS cohérentes, permettant ainsi l'utilisation de Muon dans l'entraînement à grande échelle sans nécessiter d'ajustement d'hyperparamètres.
Le nouvel optimiseur Muon a été utilisé pour le modèle Moonlight récemment lancé, un modèle d'expert mixte (MoE) avec 3B/16B paramètres. Après un entraînement sur 5,7 billions de jetons, ses performances se sont considérablement améliorées, le plaçant à la "frontière de Pareto". Ce résultat signifie qu'avec le même budget d'entraînement, le modèle Moonlight surpasse tous les autres modèles sur tous les indicateurs de performance.
Moonshot a également publié le code source de Muon ainsi que des points de contrôle pré-entraînés et intermédiaires, offrant ainsi des ressources précieuses pour les recherches futures. Des études montrent que Muon nécessite seulement 52% des FLOPs d'AdamW pendant l'entraînement, ce qui confirme son efficacité pour l'entraînement des grands modèles de langage.
L'optimiseur Muon de Moonshot surpasse non seulement les optimiseurs traditionnels en termes de performances, mais il dynamise également le développement du domaine de l'IA grâce à sa publication en open source. Avec la participation croissante de chercheurs et de développeurs, cet optimiseur devrait contribuer à faire progresser les technologies d'intelligence artificielle.
Adresse de l'article : https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf