¡Récord del servidor Lenovo Qitian WA7785a G3! Un solo equipo ejecuta el gran modelo DeepSeek de 671B con un rendimiento de hasta 6708 tokens/s!

Lenovo anunció hoy que su primer servidor de entrenamiento de modelos de IA AMD, el Lenovo Wentian WA7785a G3, logró un rendimiento máximo de 6708 tokens/s al implementar de forma independiente el modelo DeepSeek 671B (versión completa), estableciendo un nuevo récord de rendimiento para la ejecución de modelos a gran escala en un solo servidor.

Según la presentación, este avance en el rendimiento se debe al potente soporte de la plataforma de computación heterogénea Wanquan de Lenovo. Lenovo, a través de la optimización de acceso a memoria, la optimización de memoria de video, la innovadora arquitectura de interconexión PCIe5.0 y la selección de los operadores óptimos del marco SGLang, entre otras técnicas innovadoras, ha optimizado continuamente el proceso completo de los modelos de IA, desde el preentrenamiento y el postentrenamiento hasta la inferencia. Los resultados de las pruebas muestran que el servidor Lenovo Wentian WA7785a G3, con el modelo DeepSeek 671B implementado de forma independiente, alcanzó un rendimiento máximo asombroso de 6708 tokens/s.

Chip GPU (5)

Nota de la fuente de la imagen: La imagen fue generada por IA, proveedor de servicios de licencias de imágenes Midjourney

En escenarios simulados de diálogo (longitud de secuencia de contexto 128/1K), el servidor puede admitir hasta 158 concurrencias, con un TPOT (Tiempo por token de salida) de 93 milisegundos y un TTFT (Tiempo hasta el primer token) de 2.01 segundos; mientras que en escenarios simulados de generación de código (longitud de secuencia de contexto 512/4K), la concurrencia puede alcanzar los 140, con un TPOT de 100 milisegundos y un TTFT de 5.53 segundos. Lenovo indicó que este rendimiento significa que un solo servidor Lenovo Wentian WA7785a G3 puede soportar el uso normal de una empresa de 1500 personas, representando un gran salto en el rendimiento de inferencia de la implementación independiente de este modelo a gran escala, tras el logro anterior del servidor Lenovo Wentian WA7780G3 que superó los 2500 tokens/s en la implementación independiente del modelo DeepSeek completo.

Lenovo enfatizó que este avance tecnológico es el resultado del diseño conjunto, la optimización colaborativa y la realización conjunta del grupo de negocios de infraestructura de Lenovo China, el laboratorio ICI del Instituto de Investigación de Lenovo y AMD. Asimismo, señalaron que este no es el resultado final, y que Lenovo y AMD continúan explorando nuevos métodos de optimización profunda para lograr un rendimiento aún mayor.

Noticias de IA

¡Récord del servidor Lenovo Qitian WA7785a G3! Un solo equipo ejecuta el gran modelo DeepSeek de 671B con un rendimiento de hasta 6708 tokens/s!

AIbase基地