T-MAC

Aceleração de inferência em CPU para modelos de linguagem grandes de baixo bit

Novo Produto PremiumProgramaçãoInferência de baixo bitOtimização de CPU
T-MAC é uma biblioteca de kernel que suporta diretamente a multiplicação de matrizes de precisão mista usando tabelas de pesquisa, sem operações de quantização, com o objetivo de acelerar a inferência de modelos de linguagem grandes de baixo bit em CPUs. Ele suporta vários modelos de baixo bit, incluindo W4A16 do GPTQ/gguf, W2A16 do BitDistiller/EfficientQAT e BitNet W1(.58)A8 em CPUs ARM/Intel em OSX/Linux/Windows. O T-MAC alcançou uma taxa de transferência de geração de tokens de 3B BitNet no Surface Laptop 7 de 20 tokens por segundo em um único núcleo e 48 tokens por segundo em quatro núcleos, 4 a 5 vezes mais rápido que o framework de baixo bit de CPU mais avançado (llama.cpp).
Abrir Site

T-MAC Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

T-MAC Tendência de Visitas

T-MAC Distribuição Geográfica das Visitas

T-MAC Fontes de Tráfego