レノボは本日、AMD AI大規模言語モデルトレーニングサーバーであるレノボ問天WA7785a G3が、単体で671Bパラメーター(フルバージョン)のDeepSeek大規模言語モデルを展開した際に、最大6708トークン/秒という驚異的なスループットを実現し、単一サーバーでの超大規模モデル実行性能の記録を再び更新したと発表しました。

この性能向上は、レノボの万全異種計算プラットフォームによる強力なサポートのおかげです。レノボは、メモリアクセス最適化、ビデオメモリ最適化、革新的なPCIe5.0フルインターコネクトアーキテクチャ、そしてSGLangフレームワークから厳選された最適な演算子など、一連の革新的な技術的手段を通じて、大規模言語モデルの事前トレーニング、事後トレーニング、推論の全プロセスを継続的に最適化しました。実測結果によると、DeepSeek 671B大規模言語モデルを単体で展開したレノボ問天WA7785a G3サーバーでは、最大スループットが驚異的な6708トークン/秒に達しました。

GPUチップ (5)

画像出典:AI生成画像、画像ライセンス提供元Midjourney

質問応答シナリオ(コンテキストシーケンス長128/1K)をシミュレートした場合、このサーバーは最大158の同時実行数をサポートし、TPOT(出力トークンあたりの時間)は93ミリ秒、TTFT(最初のトークンまでの時間)は2.01秒です。一方、コード生成シナリオ(コンテキストシーケンス長512/4K)をシミュレートした場合、同時実行数は140に達し、TPOTは100ミリ秒、TTFTは5.53秒です。レノボは、この性能は単一のレノボ問天WA7785a G3サーバーで1500人規模の企業の通常の使用をサポートできることを意味しており、レノボ問天WA7780G3サーバーが単体でフルバージョンのDeepSeek大規模言語モデルを展開した際の総スループットが2500トークン/秒を突破したことに続く、同モデルの単体展開における推論性能の大幅な飛躍であると述べています。

レノボは、今回の技術的ブレークスルーは、レノボ中国インフラストラクチャ事業グループ、レノボ研究所ICIラボ、およびAMDによる共同設計、共同チューニング、共同実現による成果であると強調しています。同時に、これは最終的な結果ではなく、レノボとAMDはより高い性能向上を実現するために、深層チューニングの新しい方法を継続的に探求しています。