T-MAC
低比特大型语言模型在CPU上的推理加速
优质新品编程低比特推理CPU优化
T-MAC是一个内核库,通过使用查找表直接支持混合精度矩阵乘法,无需去量化操作,旨在加速CPU上的低比特大型语言模型推理。它支持多种低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16以及OSX/Linux/Windows上的ARM/Intel CPU的BitNet W1(.58)A8。T-MAC在Surface Laptop 7上实现了3B BitNet的令牌生成吞吐量,单核每秒20个,四核每秒48个,比现有最先进的CPU低比特框架(llama.cpp)快4~5倍。
T-MAC 最新流量情况
月总访问量
515580771
跳出率
37.20%
平均页面访问数
5.8
平均访问时长
00:06:42