人工知能(AI)技術の急速な発展に伴い、DeepSeekチームは最新のDeepSeek-V3/R1推論システムを発表しました。このシステムは、より高いスループットとより低いレイテンシを通じて、AGI(汎用人工知能)の効率的な発展を促進することを目的としています。この目標を実現するために、DeepSeekはノード間エキスパート並列処理(Expert Parallelism、EP)技術を採用し、GPUの計算効率を大幅に向上させ、レイテンシを低減しながらバッチ処理規模を拡大しました。
DeepSeek-V3/R1の中核は、その非常に高いスパース性にあります。モデルの各層では256個のエキスパートのうち8個しか活性化されないため、各エキスパートが十分な処理能力を持つように、非常に大きなバッチサイズが必要です。このシステムのアーキテクチャは、プリフィルデコード解集合(prefill-decode disaggregation)の方法を採用しており、プリフィル段階とデコード段階で異なる程度の並列化戦略を用いています。
プリフィル段階では、システムは双バッチオーバーラップ戦略を使用して通信コストを隠蔽します。これは、一連の要求を処理している間に、別のバッチの通信コストが計算プロセスによって隠蔽されることを意味し、全体的なスループットが向上します。一方、デコード段階では、異なる実行段階の時間的不均衡の問題に対処するために、DeepSeekは5段階のパイプライン方式を採用し、シームレスな通信と計算のオーバーラップを実現しています。
大規模並列処理に伴う負荷の不均衡問題に対処するために、DeepSeekチームは複数のロードバランサーを導入しました。これらのロードバランサーは、すべてのGPU間で計算と通信の負荷をバランスさせる役割を果たし、単一のGPUが過負荷によってパフォーマンスのボトルネックになるのを防ぎ、リソースの効率的な利用を確保します。
サービスパフォーマンスに関して、DeepSeek-V3/R1推論サービスはH800 GPU上で動作し、使用される行列乗算と転送フォーマットはトレーニングプロセスと一貫しています。最新の統計データによると、システムは過去24時間で6080億個の入力トークンを処理し、最高ノード占有率は278、日平均占有率は226.75に達し、全体的なサービスパフォーマンスは良好です。
DeepSeek-V3/R1推論システムは、効率的なアーキテクチャ設計とインテリジェントな負荷管理により、人工知能モデルの推論性能を向上させるだけでなく、将来のAGI研究とアプリケーションのための強力なインフラストラクチャサポートを提供します。
プロジェクト:https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md
要点:
🌟 DeepSeek-V3/R1推論システムは、ノード間エキスパート並列処理技術により、より高いスループットとより低いレイテンシを実現します。
📊 双バッチオーバーラップ戦略と5段階パイプラインを採用し、計算効率を向上させ、通信プロセスを最適化します。
🔄 複数のロードバランサーを導入し、GPU間のリソース効率的な利用を確保し、パフォーマンスボトルネックを回避します。