Servidor Lenovo Qitian WA7785a G3 quebra recorde! Modelo de linguagem grande DeepSeek de 671B executado em uma única máquina atinge taxa de transferência de 6708 tokens/s!

A Lenovo anunciou hoje seu primeiro servidor de treinamento de modelos de IA AMD, o Lenovo Wentian WA7785a G3. Ao implantar o modelo DeepSeek 671B (versão completa) em uma única máquina, ele atingiu uma taxa de transferência máxima de 6708 tokens/s, quebrando mais uma vez o recorde de desempenho de modelos de grande escala em um único servidor.

De acordo com a empresa, essa melhoria de desempenho se deve ao poderoso suporte da plataforma de computação heterogênea Wanquan da Lenovo. A Lenovo, por meio de otimizações de acesso à memória, otimizações de memória de vídeo, arquitetura inovadora de interconexão PCIe 5.0 e seleção dos operadores ótimos no framework SGLang, otimizou continuamente todo o processo de grandes modelos, desde o pré-treinamento e pós-treinamento até a inferência. Os resultados dos testes mostraram que, no servidor Lenovo Wentian WA7785a G3 com implantação de um único modelo DeepSeek 671B, a taxa de transferência máxima atingiu a impressionante marca de 6708 tokens/s.

Chip GPU (5)

Observação da fonte: A imagem foi gerada por IA, com direitos de uso concedidos pela Midjourney.

Em cenários simulados de diálogo (comprimento da sequência de contexto 128/1K), o servidor pode suportar até 158 conexões simultâneas, com TPOT (Tempo por Token de Saída) de 93 milissegundos e TTFT (Tempo até o Primeiro Token) de 2,01 segundos. Já em cenários simulados de geração de código (comprimento da sequência de contexto 512/4K), a concorrência pode chegar a 140, com TPOT de 100 milissegundos e TTFT de 5,53 segundos. A Lenovo afirma que esse desempenho significa que um único servidor Lenovo Wentian WA7785a G3 pode atender às necessidades de uma empresa com 1500 funcionários, representando um grande avanço no desempenho de inferência de modelos de grande escala em uma única máquina, após o servidor Lenovo Wentian WA7780G3 ter ultrapassado a marca de 2500 tokens/s de taxa de transferência total na implantação de um único modelo DeepSeek completo.

A Lenovo destaca que essa inovação tecnológica é resultado do trabalho conjunto de design, otimização e implementação da Lenovo China Infrastructure Business Group, do laboratório ICI da Lenovo Research e da AMD. No entanto, a empresa ressalta que este não é o resultado final e que a Lenovo e a AMD continuam explorando novos métodos de otimização profunda para alcançar um desempenho ainda maior.

Notícias e Informações de IA

Servidor Lenovo Qitian WA7785a G3 quebra recorde! Modelo de linguagem grande DeepSeek de 671B executado em uma única máquina atinge taxa de transferência de 6708 tokens/s!

AIbase基地