Cet article analyse en détail les besoins en puissance de calcul des grands modèles de langage à des centaines de milliards de paramètres. Prenons l'exemple de Yuan 1.0, le grand modèle linguistique chinois développé par Inspur : il utilise 266 serveurs A100 à 8 cartes, avec une efficacité de calcul par carte de 44 %, et adopte une stratégie de parallélisation tridimensionnelle combinant le parallélisme tensoriel, le parallélisme pipeline et le parallélisme de données. L'article souligne que pour améliorer les performances des grands modèles, des optimisations sont nécessaires à plusieurs niveaux, notamment au niveau du framework, des E/S et de la communication. Comparés à GPT-4, les grands modèles chinois présentent encore un écart significatif en termes de puissance de calcul, d'algorithmes et de données. Il est nécessaire de poursuivre les efforts de recherche et développement pour améliorer les performances de ces grands modèles.