T-MAC
Aceleración de la inferencia de modelos de lenguaje extenso de baja precisión en CPU
Nuevo Producto PremiumProgramaciónInferencia de baja precisiónOptimización para CPU
T-MAC es una biblioteca de núcleo que admite directamente la multiplicación de matrices de precisión mixta mediante el uso de tablas de búsqueda, sin necesidad de operaciones de cuantificación, con el objetivo de acelerar la inferencia de modelos de lenguaje extenso de baja precisión en CPU. Es compatible con varios modelos de baja precisión, incluyendo W4A16 de GPTQ/gguf, W2A16 de BitDistiller/EfficientQAT y BitNet W1(.58)A8 en CPU ARM/Intel de OSX/Linux/Windows. T-MAC logró un rendimiento de generación de tokens de 3B BitNet en una Surface Laptop 7 de 20 tokens por segundo en un solo núcleo y 48 tokens por segundo en cuatro núcleos, lo que representa una velocidad de 4 a 5 veces superior a la de los frameworks de baja precisión para CPU más avanzados (llama.cpp).
T-MAC Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34