T-MAC

Aceleración de la inferencia de modelos de lenguaje extenso de baja precisión en CPU

Nuevo Producto PremiumProgramaciónInferencia de baja precisiónOptimización para CPU

T-MAC es una biblioteca de núcleo que admite directamente la multiplicación de matrices de precisión mixta mediante el uso de tablas de búsqueda, sin necesidad de operaciones de cuantificación, con el objetivo de acelerar la inferencia de modelos de lenguaje extenso de baja precisión en CPU. Es compatible con varios modelos de baja precisión, incluyendo W4A16 de GPTQ/gguf, W2A16 de BitDistiller/EfficientQAT y BitNet W1(.58)A8 en CPU ARM/Intel de OSX/Linux/Windows. T-MAC logró un rendimiento de generación de tokens de 3B BitNet en una Surface Laptop 7 de 20 tokens por segundo en un solo núcleo y 48 tokens por segundo en cuatro núcleos, lo que representa una velocidad de 4 a 5 veces superior a la de los frameworks de baja precisión para CPU más avanzados (llama.cpp).

Admite la inferencia de modelos Llama cuantificados a 1/2/3/4 bits en formato GPTQ.
En el último chip Snapdragon X Elite
la velocidad de generación de tokens de T-MAC incluso supera a la de la NPU.
Admite de forma nativa la implementación en Windows ARM; T-MAC demostró una notable mejora de velocidad de 5 veces en una Surface Laptop 7.
Al usar tablas de búsqueda
T-MAC reduce significativamente el uso de los núcleos de la CPU
a la vez que disminuye el consumo de energía y potencia.
En comparación con la NPU
el rendimiento de la CPU de T-MAC en el chip Snapdragon X Elite supera al del motor de procesamiento neuronal Qualcomm Snapdragon (NPE).
En comparación con la GPU CUDA

T-MAC está principalmente orientado a desarrolladores y empresas que necesitan realizar inferencia de modelos de lenguaje extenso en CPU
especialmente en escenarios de aplicación que buscan rendimiento de inferencia en tiempo real o casi en tiempo real en dispositivos periféricos. Es adecuado para situaciones en las que se necesita optimizar el consumo de energía y los recursos informáticos
como dispositivos móviles
sistemas integrados o cualquier entorno con recursos limitados.

Al usar T-MAC para la inferencia del modelo 3B BitNet en una Surface Laptop 7
se logró una mejora de velocidad significativa.
En el chip Snapdragon X Elite
se logró un rendimiento comparable al de la NPU a través de T-MAC
reduciendo al mismo tiempo el tamaño del modelo.

Instalar el entorno Python
asegurando que la versión sea 3.8 para cumplir con los requisitos de TVM.
Instalar cmake \u003e=3.22 y otras dependencias según el sistema operativo.
Instalar T-MAC usando pip en un entorno virtual y activar las variables de entorno correspondientes.
Utilizar los scripts de herramientas proporcionados para la inferencia de extremo a extremo