Dans la course effrénée de l'intelligence artificielle, une expérience à grande échelle coûtant des millions de dollars est en train de révolutionner silencieusement la manière dont les grands modèles de langage sont entraînés. L'équipe de recherche de StepStar a récemment publié des résultats de recherche importants : en utilisant près d'un million d'heures de calcul sur des GPU NVIDIA H800, elle a entraîné à partir de zéro 3 700 modèles de différentes tailles, totalisant un nombre impressionnant de 100 000 milliards de jetons, révélant ainsi une loi d'échelle universelle appelée « Step Law », qui offre de nouvelles directives pour un entraînement efficace des grands modèles de langage.
Cette recherche ne se limite pas à l'exploration de l'optimisation des hyperparamètres ; c'est également le premier travail à examiner de manière exhaustive la stabilité des hyperparamètres optimaux du modèle dans différentes formes, densités et distributions de données. Les résultats montrent que la loi Step Law présente une robustesse étonnante, quelle que soit l'architecture du modèle ou la langue ou le domaine des données d'entraînement, ce qui augmente considérablement la valeur de cet outil dans les applications pratiques.
Les 3 700 modèles entraînés par l'équipe couvrent différentes tailles, différentes combinaisons d'hyperparamètres, différentes formes, différents ratios de données et différentes densités de configuration, y compris les architectures MoE et Dense. Grâce à ces expériences à grande échelle, ils ont découvert que le taux d'apprentissage optimal varie en fonction de la taille des paramètres du modèle et de la taille des données selon une loi de puissance, tandis que la taille optimale du lot est principalement liée à la taille des données. Cette découverte bouleverse les idées reçues de l'industrie sur la configuration des hyperparamètres.
Source : L'image a été générée par une IA, fournie par Midjourney.
Les données expérimentales montrent que, pour une taille de modèle et une taille de données fixes, le paysage de l'optimisation des hyperparamètres présente une caractéristique de convexité marquée, ce qui signifie qu'il existe une zone d'hyperparamètres optimaux stable et facile à trouver. Pour vérifier cela, l'équipe de recherche a construit un espace de visualisation tridimensionnel pour montrer visuellement l'influence du taux d'apprentissage et de la taille du lot sur la perte d'entraînement. Les résultats montrent clairement une forme de « vallée », le fond convexe étant une zone relativement plate, ce qui fournit une base théorique précieuse pour l'optimisation des hyperparamètres dans la pratique.
Pour que cette découverte profite à toute la communauté de l'IA, l'équipe a développé et lancé un outil d'estimation des hyperparamètres optimaux universel. Les résultats de prédiction de cet outil ne diffèrent que de 0,09 % des hyperparamètres optimaux globaux obtenus par une recherche exhaustive. Cela signifie que les chercheurs et les ingénieurs n'ont plus besoin de recourir à une coûteuse recherche en grille, mais peuvent obtenir directement une configuration d'hyperparamètres proche de l'optimum grâce à cet outil.
Plus impressionnante encore est l'universalité de la loi Step Law. L'équipe de recherche a vérifié sa portée sous trois angles différents : premièrement, quelle que soit la forme du modèle – qu'il soit orienté largeur, profondeur ou équilibre largeur-profondeur – la loi Step Law peut prédire avec précision la zone des hyperparamètres optimaux ; deuxièmement, cette loi s'applique non seulement aux modèles Dense, mais peut également être étendue aux modèles MoE de densité variable ; enfin, que les données d'entraînement soient principalement en anglais, bilingues anglais-chinois, un mélange de code et d'anglais, ou principalement du code, la loi Step Law a démontré une stabilité étonnante.
La recherche a également révélé la direction d'optimisation de la stratégie de planification du taux d'apprentissage. Contrairement aux stratégies traditionnelles de réduction du taux d'apprentissage, l'équipe propose d'utiliser un taux d'apprentissage minimal fixe (1e-5), plutôt que de définir la valeur minimale comme un dixième de la valeur maximale comme le font les méthodes traditionnelles. Ce changement permet à l'entraînement de maintenir une amplitude de mise à jour des paramètres plus raisonnable en phase finale, évitant efficacement les oscillations continues de la fonction de perte en phase de convergence.
De plus, la recherche a révélé que les hyperparamètres optimaux pour lisser la perte d'entraînement et la perte de validation sont fortement cohérents, ce qui offre une méthode plus économique pour le choix des hyperparamètres : les chercheurs peuvent utiliser la surveillance de la perte d'entraînement lissée pour guider l'ajustement des hyperparamètres, sans avoir à évaluer fréquemment les performances du modèle sur l'ensemble de validation.
Malgré les résultats remarquables, l'équipe de recherche de StepStar reconnaît que ce n'est qu'un début. Elle prévoit de publier progressivement les détails de l'expérience, y compris les points de contrôle finaux de près de 4 000 modèles, afin de permettre à la communauté de procéder à des analyses et à des interprétations théoriques plus approfondies. Les futures orientations de recherche comprennent l'exploration de la convexité de l'espace tridimensionnel Loss-BS-LR, l'amélioration des méthodes d'ajustement des hyperparamètres optimaux, l'explication des variations des zones sous-optimales pour différentes configurations et l'étude approfondie de la dynamique d'entraînement dans différents paramètres.
Les travaux ultérieurs de la série Predictable Scale pourraient aborder plus en détail la prédiction des performances des très grands modèles, la nature de la mise à l'échelle de Code & Math et les caractéristiques de mise à l'échelle des différents types d'Attention. On peut prévoir que cette série de recherches fournira des directives théoriques et des outils pratiques plus complets pour l'entraînement efficace des grands modèles de langage, et qu'elle permettra de faire progresser les technologies de l'IA vers une plus grande efficacité et un meilleur contrôle.