本日、中国の人工知能をリードする企業DeepSeekは、オープンソース計画の4日目の成果であるOptimized Parallelism Strategies(最適化された並列化戦略)を正式に公開しました。特に、双方向パイプライン並列アルゴリズムDualPipe、専門家並列負荷分散器EPLB、そして計算と通信のオーバーラップメカニズムの深層最適化を重点的に発表しました。今回の技術アップグレードは、大規模言語モデル訓練の中核的な課題に直接的に取り組み、数万枚以上のGPUを持つクラスターの高効率運用のための新しいソリューションを提供します。
1. DualPipe:双方向パイプライン並列アルゴリズム
今回のアップグレードの中核技術の一つとして、DualPipeはV3/R1アーキテクチャ向けに設計されており、革新的な双方向データフローパイプラインにより、計算と通信の高レベルなオーバーラップを実現します。従来の単方向パイプラインと比較して、この技術は計算スループットを大幅に向上させることができ、特に数百億から数兆パラメータ規模のモデル訓練に適しています。GitHubのコードリポジトリによると、DualPipeはインテリジェントなスケジューリングメカニズムを通じて、逆伝播段階で順伝播計算を同時実行し、ハードウェアの利用率を約30%向上させます。
(プロジェクトリンク:https://github.com/deepseek-ai/DualPipe)。
2. EPLB:動的負荷分散器
混合専門家(MoE)モデル訓練における「ホットスポット専門家」という問題に対して、EPLB技術は専門家並列の動的負荷分散を初めて実現しました。従来の方法では専門家タスクの割り当てが不均一なため、一部の計算カードが過負荷になることがありましたが、EPLBはリアルタイム監視と適応型割り当てにより、数万枚のGPUを持つクラスター全体の利用率を92%以上に向上させ、リソースの無駄を効果的に防止します(プロジェクトリンク:https://github.com/deepseek-ai/EPLB)。
3. 計算と通信のオーバーラップ最適化
V3/R1アーキテクチャに基づいた通信オーバーラップ解析ツールを用いて、DeepSeekは初めて3D並列(データ/パイプライン/テンソル並列)の时空効率モデルを構築しました。オープンソースの解析データセット(リンク:https://github.com/deepseek-ai/profile-data)を通じて、開発者は計算と通信の衝突ノードを正確に特定し、超大規模モデル訓練のためのチューニング基準を提供できます。テストによると、エンドツーエンドの訓練時間を約15%削減できます。
業界への影響:大規模モデル訓練のボトルネックを解消
今回の技術発表は業界で大きな注目を集めています。専門家によると、DualPipeとEPLBの組み合わせによるイノベーションは、現在の巨大言語モデル訓練における2つの大きな課題、すなわち1つ目はモデル規模の指数関数的な増加に伴い、従来の並列化戦略の拡張性のボトルネックがますます顕著になっていること、2つ目は混合専門家モデルの普及により動的負荷分散が不可欠になっていること、に直接対応しています。あるクラウドコンピューティング企業の技術責任者は、「これらのツールは、数百億パラメータ規模のモデル訓練のハードウェアのハードルを大幅に下げ、訓練コストを20~30%削減すると予想されます」と評価しています。
DeepSeekのCTOは技術文書の中で、今回オープンソース化された戦略は、同社内部の複数の数百億パラメータ規模のモデル訓練で検証済みであり、今後も継続的に改良していくことを強調しています。現在、3つの技術はすべてGitHubでオープンソース化されており、開発者は異なるハードウェア環境に合わせてカスタマイズして利用できます。
世界的なAI競争が「規模で勝敗が決まる」段階に入った今、DeepSeekは4日間にわたる重要な技術のオープンソース化を通じて、中国のAI企業の技術力を示すとともに、業界に再利用可能なインフラストラクチャを提供しました。「オープンコラボレーション」を推進するこの技術革新は、大規模モデル訓練の産業エコシステムを再構築する可能性があります。