T-MAC

Aceleração de inferência em CPU para modelos de linguagem grandes de baixo bit

Novo Produto PremiumProgramaçãoInferência de baixo bitOtimização de CPU

T-MAC é uma biblioteca de kernel que suporta diretamente a multiplicação de matrizes de precisão mista usando tabelas de pesquisa, sem operações de quantização, com o objetivo de acelerar a inferência de modelos de linguagem grandes de baixo bit em CPUs. Ele suporta vários modelos de baixo bit, incluindo W4A16 do GPTQ/gguf, W2A16 do BitDistiller/EfficientQAT e BitNet W1(.58)A8 em CPUs ARM/Intel em OSX/Linux/Windows. O T-MAC alcançou uma taxa de transferência de geração de tokens de 3B BitNet no Surface Laptop 7 de 20 tokens por segundo em um único núcleo e 48 tokens por segundo em quatro núcleos, 4 a 5 vezes mais rápido que o framework de baixo bit de CPU mais avançado (llama.cpp).

Suporta inferência de modelos Llama com quantização de 1/2/3/4 bits no formato GPTQ.
No chip Snapdragon X Elite mais recente
a velocidade de geração de tokens do T-MAC até supera a NPU.
Suporta nativamente a implantação em Windows ARM; o T-MAC demonstrou uma melhoria de velocidade notável de 5 vezes no Surface Laptop 7.
Usando tabelas de pesquisa
o T-MAC reduz significativamente o uso do núcleo da CPU
reduzindo simultaneamente o consumo de energia e potência.
Em comparação com a NPU
no chip Snapdragon X Elite
o desempenho da CPU do T-MAC supera o motor de processamento neural Qualcomm Snapdragon (NPE).

O T-MAC é direcionado principalmente a desenvolvedores e empresas que precisam realizar inferência de modelos de linguagem grandes em CPUs
especialmente aqueles que buscam desempenho de inferência em tempo real ou quase em tempo real em dispositivos de borda. É adequado para cenários que exigem otimização de consumo de energia e recursos computacionais
como dispositivos móveis
sistemas embarcados ou qualquer ambiente com recursos limitados.

No Surface Laptop 7
o uso do T-MAC para inferência do modelo 3B BitNet resultou em uma melhoria de velocidade significativa.
No chip Snapdragon X Elite
o T-MAC alcançou desempenho comparável ao da NPU
reduzindo simultaneamente o tamanho do modelo.

Instale o ambiente Python
garantindo que a versão seja 3.8 para atender aos requisitos do TVM.
Instale o cmake\u003e=3.22 e outras dependências
de acordo com o sistema operacional.
Instale o T-MAC em um ambiente virtual usando pip e ative as variáveis de ambiente correspondentes.