Lenovo a annoncé aujourd'hui que son premier serveur d'entraînement de grands modèles d'IA AMD, le Lenovo Wentian WA7785a G3, a atteint un débit maximal de 6708 jetons/s lors du déploiement sur une seule machine du grand modèle DeepSeek 671B (version complète), établissant un nouveau record de performance pour l'exécution de modèles à très grande échelle sur un seul serveur.

Selon les informations fournies, cette avancée en termes de performance est due au puissant support de la plateforme de calcul hétérogène Wanquan de Lenovo. Lenovo a optimisé l'accès à la mémoire, la mémoire vidéo, et a mis en œuvre une architecture d'interconnexion PCIe 5.0 innovante ainsi qu'une sélection d'opérateurs optimaux du framework SGLang. Ces innovations technologiques ont permis une optimisation continue du processus complet des grands modèles, de la pré-formation à l'inférence, en passant par l'après-formation. Les résultats des tests montrent que le serveur Lenovo Wentian WA7785a G3, déployant le grand modèle DeepSeek 671B sur une seule machine, a atteint un débit incroyable de 6708 jetons/s.

Puce GPU (5)

Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney

Lors de la simulation de scénarios de dialogue (longueur de séquence de contexte 128/1 K), le serveur peut prendre en charge jusqu'à 158 concurrences, avec un TPOT (temps par jeton de sortie) de 93 ms et un TTFT (temps jusqu'au premier jeton) de 2,01 s ; tandis que lors de la simulation de scénarios de génération de code (longueur de séquence de contexte 512/4 K), le nombre de concurrences peut atteindre 140, avec un TPOT de 100 ms et un TTFT de 5,53 s. Lenovo a déclaré que ces performances signifient qu'un seul serveur Lenovo Wentian WA7785a G3 peut prendre en charge l'utilisation normale d'une entreprise de 1 500 personnes, marquant une nouvelle avancée majeure dans les performances d'inférence du déploiement d'un seul grand modèle DeepSeek sur une seule machine, après que le serveur Lenovo Wentian WA7780G3 a dépassé les 2 500 jetons/s de débit total.

Lenovo souligne que cette avancée technologique est le fruit d'une conception conjointe, d'une optimisation collaborative et d'une réalisation commune entre le groupe des infrastructures de Chine de Lenovo, le laboratoire ICI de Lenovo Research et AMD. Cependant, ce n'est pas le résultat final, Lenovo et AMD continuent d'explorer de nouvelles méthodes d'optimisation approfondie afin de réaliser des performances encore plus élevées.