Lenovo Qitian WA7785a G3 Server bricht Rekord! Einzelner Server erreicht Durchsatz von 6708 Token/s bei DeepSeek-Großmodell mit 671B Parametern!

Lenovo gab heute die Markteinführung seines ersten AMD AI-Großmodell-Trainingsservers bekannt – des Lenovo ThinkSystem WA7785a G3. Bei der Einzelplatzbereitstellung des 671B-DeepSeek-Großmodells (Vollversion) erreichte er einen Durchsatz von beeindruckenden 6708 Token/s und stellte damit erneut einen neuen Rekord für die Leistung von Einzelservern bei der Ausführung von extrem großen Modellen auf.

Dieser Leistungsdurchbruch ist laut Lenovo der leistungsstarken Unterstützung der Lenovo Wanquan heterogenen KI-Rechenplattform zu verdanken. Lenovo optimierte das Großmodell über den gesamten Workflow – von der Vor- und Nachbereitung bis zum Schlussfolgerungsprozess – durch eine Reihe innovativer Techniken, darunter Speicheroptimierung, GPU-Speicheroptimierung, eine innovative PCIe 5.0-Vollvernetzungsarchitektur und die Auswahl optimaler Operatoren im SGLang-Framework. Die Testergebnisse zeigen einen maximalen Durchsatz von erstaunlichen 6708 Token/s auf einem Lenovo ThinkSystem WA7785a G3-Server mit dem DeepSeek 671B-Großmodell.

GPU-Chip (5)

Bildquelle: Das Bild wurde mit KI generiert und stammt von Midjourney.

In simulierten Frage-Antwort-Szenarien (Kontextsequenzlänge 128/1K) unterstützt der Server bis zu 158 gleichzeitige Verbindungen mit einer TPOT (Time Per Output Token) von 93 Millisekunden und einer TTFT (Time To First Token) von 2,01 Sekunden. In simulierten Codegenerierungsszenarien (Kontextsequenzlänge 512/4K) erreicht er 140 gleichzeitige Verbindungen mit einer TPOT von 100 Millisekunden und einer TTFT von 5,53 Sekunden. Lenovo erklärte, dass diese Leistung ausreicht, um den normalen Betrieb eines Unternehmens mit 1500 Mitarbeitern zu unterstützen. Dies stellt nach dem Durchsatzrekord von über 2500 Token/s des Lenovo ThinkSystem WA7780 G3-Servers bei der Einzelplatzbereitstellung des DeepSeek-Großmodells (Vollversion) einen weiteren bedeutenden Fortschritt bei der Inferenzleistung bei der Einzelplatzbereitstellung dieses Großmodells dar.

Lenovo betont, dass dieser technologische Durchbruch das Ergebnis einer gemeinsamen Entwicklung, Abstimmung und Umsetzung durch die Lenovo China Infrastructure Business Group, das Lenovo Research Institute ICI-Labor und AMD ist. Dies ist jedoch nicht das endgültige Ergebnis. Lenovo und AMD forschen weiterhin nach neuen Methoden zur Feinabstimmung, um noch höhere Leistungswerte zu erzielen.

KI-Nachrichten und -Informationen

Lenovo Qitian WA7785a G3 Server bricht Rekord! Einzelner Server erreicht Durchsatz von 6708 Token/s bei DeepSeek-Großmodell mit 671B Parametern!

AIbase基地