Heute gab das führende chinesische KI-Unternehmen DeepSeek die Ergebnisse des vierten Tages seines Open-Source-Projekts bekannt – Optimized Parallelism Strategies (optimierte Parallelisierungsstrategien) – und stellte dabei insbesondere den bidirektionalen Pipeline-Parallelisierungsalgorithmus DualPipe, den Experten-Parallel-Lastausgleicher EPLB und tiefgreifende Optimierungen des Mechanismus zur Überlappung von Berechnung und Kommunikation vor. Dieses technische Upgrade zielt direkt auf die Kernprobleme beim Training großer Sprachmodelle ab und bietet eine neue Lösung für den effizienten Betrieb von Clustern mit über 10.000 Karten.
1. DualPipe: Bidirektionaler Pipeline-Parallelisierungsalgorithmus
Als eine der Kerntechnologien dieses Upgrades wurde DualPipe speziell für die V3/R1-Architektur entwickelt und ermöglicht durch innovative bidirektionale Datenstrom-Pipelines eine hohe Überlappung von Berechnung und Kommunikation. Im Vergleich zu herkömmlichen unidirektionalen Pipelines kann diese Technologie den Rechendurchsatz deutlich verbessern, insbesondere beim Training von Modellen mit einer Größe von Milliarden bis Billionen Parametern. Das GitHub-Repository zeigt, dass DualPipe durch einen intelligenten Scheduling-Mechanismus die Vorwärtsberechnung in der Rückwärtspropagierungsphase synchron ausführt und die Hardwareauslastung um etwa 30 % steigert.
(Projektlink: https://github.com/deepseek-ai/DualPipe).
2. EPLB: Dynamischer Lastausgleicher
Um das Problem der „Hotspot-Experten“ beim Training von Mixture-of-Experts (MoE)-Modellen zu lösen, ermöglicht die EPLB-Technologie erstmals eine dynamische Lastverteilung bei der Experten-Parallelisierung. Herkömmliche Methoden führen aufgrund ungleicher Experten-Aufgabenverteilung häufig zu Überlastung einiger Rechnerkarten. EPLB hingegen überwacht und verteilt die Aufgaben in Echtzeit adaptiv, wodurch die Gesamtauslastung von Clustern mit zehntausenden Karten auf über 92 % gesteigert und Ressourcen-Leerlauf effektiv vermieden wird (Projektlink: https://github.com/deepseek-ai/EPLB).
3. Optimierung der Überlappung von Berechnung und Kommunikation
Basierend auf einem Kommunikationsüberlappungsanalyse-Tool für die V3/R1-Architektur hat DeepSeek erstmals ein Raum-Zeit-Effizienzmodell für 3D-Parallelisierung (Daten-/Pipeline-/Tensor-Parallelisierung) erstellt. Mithilfe des Open-Source-Analysedatensatzes (Link: https://github.com/deepseek-ai/profile-data) können Entwickler Konflikte zwischen Berechnung und Kommunikation präzise lokalisieren und erhalten so eine Optimierungsbasis für das Training von sehr großen Modellen. Tests zeigen eine Reduzierung der End-to-End-Trainingszeit um etwa 15 %.
Branchenauswirkungen: Lösung von Engpässen beim Training großer Modelle
Diese Veröffentlichung hat in der Branche große Aufmerksamkeit erregt. Experten weisen darauf hin, dass die kombinierte Innovation von DualPipe und EPLB direkt auf die beiden größten Herausforderungen beim Training großer Modelle eingeht: Erstens wird der Skalierungsgrenze herkömmlicher Parallelisierungsstrategien mit exponentiell wachsendem Modellumfang immer deutlicher; zweitens ist mit der Verbreitung von Mixture-of-Experts-Modellen eine dynamische Lastverteilung unerlässlich geworden. Ein technischer Leiter eines Cloud-Computing-Anbieters kommentierte: „Diese Tools werden die Hardware-Hürden für das Training von Modellen mit Milliarden Parametern deutlich senken und die Trainingskosten voraussichtlich um 20 % bis 30 % reduzieren.“
Der CTO von DeepSeek betont in der technischen Dokumentation, dass die jetzt veröffentlichten Strategien bereits intern bei mehreren Modellen mit Milliarden Parametern getestet wurden und zukünftig weiter optimiert werden sollen. Derzeit sind alle drei Technologien als Open Source auf GitHub verfügbar und ermöglichen Entwicklern eine kundenspezifische Anwendung in verschiedenen Hardwareumgebungen.
Da der globale KI-Wettbewerb in die Phase der „Größenentscheidung“ eintritt, demonstriert DeepSeek durch die vier Tage dauernde Veröffentlichung wichtiger Technologien nicht nur die technischen Fähigkeiten chinesischer KI-Unternehmen, sondern stellt der Branche auch wiederverwendbare Infrastrukturen zur Verfügung. Diese von „offener Zusammenarbeit“ getriebene technologische Innovation könnte das Ökosystem des Trainings großer Modelle neu gestalten.