T-MAC
CPU上での低ビット大型言語モデルの推論加速
プレミアム新製品プログラミング低ビット推論CPU最適化
T-MACは、ルックアップテーブルを使用して混合精度行列乗算を直接サポートするカーネルライブラリです。量子化操作は不要で、CPU上での低ビット大型言語モデルの推論を高速化することを目的としています。GPTQ/ggufのW4A16、BitDistiller/EfficientQATのW2A16、そしてOSX/Linux/Windows上のARM/Intel CPU向けのBitNet W1(.58)A8など、様々な低ビットモデルをサポートしています。Surface Laptop 7では、3B BitNetのトークン生成スループットを、シングルコアで毎秒20個、クアッドコアで毎秒48個達成し、既存の最先端のCPU低ビットフレームワーク(llama.cpp)と比べて4~5倍高速です。
T-MAC 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34