Deepseek a dévoilé aujourd'hui son deuxième produit de la semaine des logiciels libres : DeepEP, la première bibliothèque de communication EP open source pour les modèles MoE. Elle prend en charge l’optimisation complète du pipeline de formation et d’inférence des modèles d’experts mixtes.
DeepEP est une bibliothèque de communication efficace spécialement conçue pour les experts mixtes (MoE) et le parallélisme des experts (EP). Elle vise à fournir un débit élevé et une faible latence pour les cœurs de GPU multi-à-multi, communément appelés ordonnancement et combinaison MoE.
DeepEP prend non seulement en charge les opérations de faible précision telles que FP8, mais est également compatible avec l’algorithme de contrôle de groupe à limitation proposé dans l’article DeepSeek-V3. Il optimise les noyaux de transfert de bande passante de domaine asymétrique, par exemple le transfert de données du domaine NVLink au domaine RDMA. Ces noyaux présentent un débit élevé, sont parfaitement adaptés aux tâches de pré-remplissage d’entraînement et d’inférence, et permettent de contrôler le nombre de processeurs de flux.
Pour les tâches de décodage d’inférence sensibles à la latence, DeepEP inclut également un ensemble de noyaux à faible latence, utilisant le RDMA pur pour minimiser la latence. De plus, DeepEP introduit une méthode de chevauchement communication-calcul basée sur des hooks, sans consommer de ressources de processeur de flux.
Des tests de performance ont été effectués sur des cartes réseau H800 et CX7 InfiniBand 400 Gb/s RDMA. Les résultats montrent que les noyaux normaux affichent d’excellentes performances de bande passante en nœuds internes et entre nœuds, tandis que les noyaux à faible latence atteignent les performances attendues en termes de latence et de bande passante. Plus précisément, la latence des noyaux à faible latence est de 163 microsecondes et la bande passante de 46 Go/s pour 8 experts.
DeepEP est entièrement testé et principalement compatible avec les réseaux InfiniBand, mais il peut théoriquement fonctionner sur des réseaux Ethernet convergents (RoCE). Pour éviter les interférences entre les différents types de trafic, il est recommandé d’isoler le trafic sur des canaux virtuels distincts afin d’éviter les interférences entre les noyaux normaux et les noyaux à faible latence.
DeepEP est un outil essentiel pour fournir des solutions de communication efficaces aux modèles d’experts mixtes, se caractérisant par des performances optimisées, une latence réduite et une configuration flexible.
Lien du projet : https://x.com/deepseek_ai/status/1894211757604049133
Points clés :
🌟 DeepEP est spécialement conçu pour les modèles d’experts mixtes, offrant des solutions de communication à haut débit et à faible latence.
⚙️ Il prend en charge plusieurs opérations de faible précision et optimise les performances de bande passante du transfert de données.
💡 Testé et validé, DeepEP est compatible avec les réseaux InfiniBand et permet l’isolation et la gestion de différents types de trafic.