Recentemente, a equipe Ling da Ant Group publicou um artigo técnico no servidor de pré-impressão Arxiv intitulado "Cada FLOP Importa: Escalonando um Modelo de Especialista Misto LING de 3000 bilhões de parâmetros sem GPUs de ponta", apresentando dois novos modelos de linguagem grandes: Ling-Lite e Ling-Plus. Esses modelos incorporam várias inovações de design que permitem o treinamento eficiente em hardware de baixo desempenho, reduzindo significativamente os custos.

O Ling-Lite possui 16,8 bilhões de parâmetros, com 2,75 bilhões de parâmetros de ativação. O modelo base do Ling-Plus possui impressionantes 2900 bilhões de parâmetros, com 28,8 bilhões de parâmetros de ativação. Ambos os modelos alcançam desempenho de ponta na indústria, especialmente o Ling-Plus, cujo modelo MoE de 3000 bilhões de parâmetros, treinado em dispositivos de baixo desempenho com GPUs domésticas, apresenta desempenho comparável a modelos em chips de ponta da Nvidia.

Acelerador, Aceleração, Luz

Observação da fonte: Imagem gerada por IA, fornecida pelo serviço de licenciamento de imagens Midjourney

Normalmente, o treinamento de modelos MoE requer GPUs de alto desempenho e caras, como as Nvidia H100 e H800, o que não apenas aumenta os custos, mas também é limitado pela escassez de chips, afetando sua aplicação em ambientes com recursos limitados. Para isso, a equipe Ling da Ant Group propôs um novo objetivo — "escalonar modelos sem GPUs de ponta" —, superando as restrições de recursos e orçamento. Suas estratégias de treinamento inovadoras incluem alocação dinâmica de parâmetros, programação de precisão mista e um mecanismo aprimorado de tratamento de exceções de treinamento, que reduzem efetivamente o tempo de resposta a interrupções e otimizam o processo de avaliação do modelo, comprimindo o ciclo de validação em mais de 50%.

Nos experimentos, a equipe Ling pré-treinou o Ling-Plus em 9 trilhões de tokens. Os resultados mostraram que o custo de treinar 1 trilhão de tokens usando hardware de alto desempenho é de aproximadamente 6,35 milhões de yuans chineses, enquanto o uso do método otimizado da Ant Group em hardware de baixa especificação reduz o custo para cerca de 5,08 milhões de yuans, representando uma economia de quase 20%. Ao mesmo tempo, o desempenho é comparável ao Alibaba Tongyi Qwen2.5-72B-Instruct e DeepSeek-V2.5-1210-Chat.

Se essa conquista tecnológica for amplamente aplicada, ela fornecerá soluções mais econômicas e eficientes para modelos domésticos de linguagem grande, reduzindo a dependência de chips Nvidia e abrindo novos caminhos para o desenvolvimento futuro da inteligência artificial.