T-MAC
Aceleração de inferência em CPU para modelos de linguagem grandes de baixo bit
Novo Produto PremiumProgramaçãoInferência de baixo bitOtimização de CPU
T-MAC é uma biblioteca de kernel que suporta diretamente a multiplicação de matrizes de precisão mista usando tabelas de pesquisa, sem operações de quantização, com o objetivo de acelerar a inferência de modelos de linguagem grandes de baixo bit em CPUs. Ele suporta vários modelos de baixo bit, incluindo W4A16 do GPTQ/gguf, W2A16 do BitDistiller/EfficientQAT e BitNet W1(.58)A8 em CPUs ARM/Intel em OSX/Linux/Windows. O T-MAC alcançou uma taxa de transferência de geração de tokens de 3B BitNet no Surface Laptop 7 de 20 tokens por segundo em um único núcleo e 48 tokens por segundo em quatro núcleos, 4 a 5 vezes mais rápido que o framework de baixo bit de CPU mais avançado (llama.cpp).
T-MAC Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34