T-MAC

Aceleración de la inferencia de modelos de lenguaje extenso de baja precisión en CPU

Nuevo Producto PremiumProgramaciónInferencia de baja precisiónOptimización para CPU
T-MAC es una biblioteca de núcleo que admite directamente la multiplicación de matrices de precisión mixta mediante el uso de tablas de búsqueda, sin necesidad de operaciones de cuantificación, con el objetivo de acelerar la inferencia de modelos de lenguaje extenso de baja precisión en CPU. Es compatible con varios modelos de baja precisión, incluyendo W4A16 de GPTQ/gguf, W2A16 de BitDistiller/EfficientQAT y BitNet W1(.58)A8 en CPU ARM/Intel de OSX/Linux/Windows. T-MAC logró un rendimiento de generación de tokens de 3B BitNet en una Surface Laptop 7 de 20 tokens por segundo en un solo núcleo y 48 tokens por segundo en cuatro núcleos, lo que representa una velocidad de 4 a 5 veces superior a la de los frameworks de baja precisión para CPU más avanzados (llama.cpp).
Abrir sitio web

T-MAC Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

T-MAC Tendencia de visitas

T-MAC Distribución geográfica de las visitas

T-MAC Fuentes de tráfico