T-MAC

低比特大型语言模型在CPU上的推理加速

优质新品编程低比特推理CPU优化
T-MAC是一个内核库,通过使用查找表直接支持混合精度矩阵乘法,无需去量化操作,旨在加速CPU上的低比特大型语言模型推理。它支持多种低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16以及OSX/Linux/Windows上的ARM/Intel CPU的BitNet W1(.58)A8。T-MAC在Surface Laptop 7上实现了3B BitNet的令牌生成吞吐量,单核每秒20个,四核每秒48个,比现有最先进的CPU低比特框架(llama.cpp)快4~5倍。
打开网站

T-MAC 最新流量情况

月总访问量

503747431

跳出率

37.31%

平均页面访问数

5.7

平均访问时长

00:06:44

T-MAC 访问量趋势

T-MAC 访问地理位置分布

T-MAC 流量来源