Deepseekは、オープンソースウィーク2日目の製品として、MoEモデル向けの最初のオープンソースEP通信ライブラリを発表しました。これは、混合専門家モデルのトレーニングと推論の全スタック最適化を実現しています。

DeepEPは、混合専門家(MoE)と専門家並列処理(EP)向けに設計された高効率通信ライブラリです。高スループットと低遅延の多対多GPUコア(一般的にMoEスケジューリングと組み合わせと呼ばれます)を提供することに重点を置いています。

QQ_1740452301668.png

DeepEPは、FP8などの低精度演算をサポートするだけでなく、DeepSeek-V3論文で提案されたグループ制限ゲート制御アルゴリズムにも準拠しており、非対称ドメイン帯域幅転送のコアを最適化しています(例:NVLinkドメインからRDMAドメインへのデータ転送)。これらのコアは高スループットで、トレーニングと推論のプリフェッチタスクに非常に適しており、ストリームプロセッサの数を制御できます。

QQ_1740452534008.png

遅延に敏感な推論デコードタスクの場合、DeepEPには低遅延コアのセットも含まれており、純粋なRDMAを利用して遅延を最小限に抑えます。さらに、DeepEPは、ストリームプロセッサリソースを消費しないフックベースの通信計算オーバーラップ手法も導入しています。

性能テストでは、DeepEPはH800とCX7 InfiniBand 400Gb/s RDMAネットワークカードで複数のテストが行われました。テストの結果、ノーマルコアはノード内とノード間の帯域幅で優れた性能を示し、低遅延コアは遅延と帯域幅の両方で期待通りの結果を得ることができました。具体的には、低遅延コアは8つの専門家を処理する場合の遅延が163マイクロ秒、帯域幅が46GB/sでした。

DeepEPは十分にテストされており、主にInfiniBandネットワークとの互換性がありますが、理論的にはRDMA over Converged Ethernet(RoCE)でも動作します。異なるトラフィックタイプ間の干渉を防ぐために、異なる仮想チャネルでトラフィックを分離し、ノーマルコアと低遅延コアが互いに影響を与えないようにすることをお勧めします。

DeepEPは、混合専門家モデルに高効率な通信ソリューションを提供する重要なツールであり、パフォーマンスの最適化、遅延の削減、柔軟な構成などの顕著な特徴を備えています。

プロジェクト入口:https://x.com/deepseek_ai/status/1894211757604049133

重要なポイント:

🌟 DeepEPは混合専門家モデル向けに設計されており、高スループットと低遅延の通信ソリューションを提供します。

⚙️ さまざまな低精度演算をサポートし、データ転送の帯域幅性能を最適化しています。

💡 テストと検証済みで、DeepEPはInfiniBandネットワークと互換性があり、さまざまなトラフィックタイプの分離と管理に適しています。