Deepseek hat heute im Rahmen der Open-Source-Woche sein zweites Produkt vorgestellt: DeepEP, die erste Open-Source EP-Kommunikationsbibliothek für MoE-Modelle (Mixture of Experts). Diese Bibliothek ermöglicht eine umfassende Optimierung für das Training und die Inferenz von Mixed-Expert-Modellen.
DeepEP ist eine hoch effiziente Kommunikationsbibliothek, speziell entwickelt für Mixed-Expert (MoE) Modelle und Expert Parallelisierung (EP). Sie zielt auf einen hohen Durchsatz und niedrige Latenz bei der Kommunikation zwischen mehreren GPU-Kernen ab, die oft als MoE-Scheduling und Aggregation bezeichnet werden.
DeepEP unterstützt nicht nur Low-Precision-Operationen wie FP8, sondern ist auch konsistent mit dem in der DeepSeek-V3-Veröffentlichung vorgestellten gruppenbeschränkten Gate-Algorithmus. Die Kernels für die Datenübertragung zwischen unterschiedlichen Domänen (z.B. von NVLink zu RDMA) wurden optimiert. Diese Kernels zeichnen sich durch hohen Durchsatz aus und eignen sich hervorragend für das Training und die Inferenz von Pre-Filling-Aufgaben. Die Anzahl der verwendeten Streaming-Prozessoren kann dabei gesteuert werden.
Für latenzkritische Inferenz- und Dekodierungsaufgaben bietet DeepEP auch Low-Latency-Kernels, die reines RDMA nutzen, um die Latenz zu minimieren. Darüber hinaus implementiert DeepEP eine Hook-basierte Methode zur Überlappung von Kommunikation und Berechnung, ohne dabei Streaming-Prozessor-Ressourcen zu verbrauchen.
In Leistungstests auf H800-Systemen und mit CX7 InfiniBand 400Gb/s RDMA-Netzwerkkarten zeigte DeepEP hervorragende Ergebnisse. Die normalen Kernels erzielten eine hohe Bandbreite sowohl innerhalb als auch zwischen Knoten. Die Low-Latency-Kernels erreichten die erwarteten Ergebnisse sowohl hinsichtlich Latenz als auch Bandbreite. Konkret lag die Latenz bei der Verarbeitung von 8 Experten bei 163 Mikrosekunden und die Bandbreite bei 46 GB/s.
DeepEP ist umfassend getestet und hauptsächlich mit InfiniBand-Netzwerken kompatibel, kann aber theoretisch auch über Converged Ethernet (RoCE) betrieben werden. Um Interferenzen zwischen verschiedenen Verkehrstypen zu vermeiden, wird empfohlen, den Datenverkehr in separaten virtuellen Kanälen zu isolieren, um sicherzustellen, dass die normalen und Low-Latency-Kernels sich nicht gegenseitig beeinflussen.
DeepEP ist ein wichtiges Werkzeug für die Bereitstellung effizienter Kommunikationslösungen für Mixed-Expert-Modelle und zeichnet sich durch optimierte Leistung, niedrige Latenz und flexible Konfiguration aus.
Projektseite:https://x.com/deepseek_ai/status/1894211757604049133
Highlights:
🌟 DeepEP ist speziell für Mixed-Expert-Modelle entwickelt und bietet Kommunikationslösungen mit hohem Durchsatz und niedriger Latenz.
⚙️ Unterstützt verschiedene Low-Precision-Operationen und optimiert die Bandbreitenleistung der Datenübertragung.
💡 DeepEP ist getestet und verifiziert und kompatibel mit InfiniBand-Netzwerken. Es eignet sich zur Isolation und Verwaltung verschiedener Verkehrstypen.