Aujourd'hui, DeepSeek, une entreprise leader en intelligence artificielle en Chine, a officiellement dévoilé les résultats du quatrième jour de son projet open source : Optimized Parallelism Strategies (stratégies d'optimisation du parallélisme). Elle présente notamment l'algorithme de parallélisme de pipeline bidirectionnel DualPipe, le balanced load expert parallel EPLB, et une optimisation approfondie du mécanisme de chevauchement calcul-communication. Cette mise à niveau technologique s'attaque directement aux problèmes majeurs de l'entraînement des modèles linguistiques à grande échelle, offrant une nouvelle solution pour l'exécution efficace des clusters de plus de 10 000 cartes.

QQ20250227-102104.png

1. DualPipe : algorithme de parallélisme de pipeline bidirectionnel

L'une des technologies clés de cette mise à niveau, DualPipe est spécialement conçue pour l'architecture V3/R1. Grâce à son pipeline de flux de données bidirectionnel innovant, elle permet un chevauchement élevé entre le calcul et la communication. Par rapport aux pipelines unidirectionnels traditionnels, cette technologie améliore considérablement le débit de calcul, particulièrement pour l'entraînement de modèles de plusieurs centaines de milliards à plusieurs milliers de milliards de paramètres. La bibliothèque de code GitHub montre que DualPipe, grâce à un mécanisme d'ordonnancement intelligent, exécute simultanément le calcul direct pendant la phase de rétropropagation, augmentant ainsi l'utilisation du matériel d'environ 30 %.

(Lien du projet : https://github.com/deepseek-ai/DualPipe).

2. EPLB : équilibreur de charge dynamique

Pour remédier au problème des « experts populaires » dans l'entraînement des modèles d'experts mixtes (MoE), la technologie EPLB permet pour la première fois un équilibrage de charge dynamique pour le parallélisme des experts. Les méthodes traditionnelles, en raison d'une répartition inégale des tâches entre les experts, entraînent souvent une surcharge de certaines cartes de calcul. EPLB, grâce à une surveillance en temps réel et une allocation adaptative, permet d'augmenter le taux d'utilisation global du cluster de plusieurs dizaines de milliers de cartes à plus de 92 %, évitant ainsi efficacement le gaspillage de ressources (Lien du projet : https://github.com/deepseek-ai/EPLB).

3. Optimisation du chevauchement calcul-communication

Basé sur un outil d'analyse du chevauchement des communications de l'architecture V3/R1, DeepSeek a créé pour la première fois un modèle d'efficacité spatio-temporelle du parallélisme 3D (données/pipeline/parallélisme tensoriel). Grâce à l'ensemble de données d'analyse open source (lien : https://github.com/deepseek-ai/profile-data), les développeurs peuvent localiser précisément les points de conflit entre le calcul et la communication, fournissant une référence d'optimisation pour l'entraînement des modèles à très grande échelle. Les tests montrent une réduction d'environ 15 % du temps d'entraînement de bout en bout.

Impact sur le secteur : briser les goulots d'étranglement de l'entraînement des grands modèles

Cette publication technologique a suscité un vif intérêt dans le secteur. Les experts soulignent que l'innovation combinée de DualPipe et d'EPLB répond directement aux deux principaux défis de l'entraînement des grands modèles : premièrement, avec la croissance exponentielle de la taille des modèles, les goulots d'étranglement de l'extensibilité des stratégies de parallélisme traditionnelles deviennent de plus en plus importants ; deuxièmement, la popularisation des modèles d'experts mixtes fait de l'équilibrage de charge dynamique une nécessité absolue. Un responsable technique d'un fournisseur de cloud computing a déclaré : « Ces outils réduiront considérablement le seuil matériel de l'entraînement des modèles de plusieurs centaines de milliards de paramètres, et devraient permettre de réduire les coûts d'entraînement de 20 % à 30 % ».

Le CTO de DeepSeek souligne dans la documentation technique que les stratégies open source ont été validées en interne lors de l'entraînement de plusieurs modèles de plusieurs centaines de milliards de paramètres, et qu'elles continueront d'être améliorées. Actuellement, les trois technologies sont open source sur GitHub et permettent aux développeurs de les adapter à différents environnements matériels.

Alors que la compétition mondiale en matière d'IA entre dans une phase de « décision par l'échelle », DeepSeek, grâce à quatre jours consécutifs d'open source de technologies clés, démontre non seulement les capacités technologiques des entreprises chinoises d'IA, mais fournit également des infrastructures réutilisables pour le secteur. Cette innovation technologique, menée par une « collaboration ouverte », pourrait remodeler l'écosystème industriel de l'entraînement des grands modèles.