T-MAC
Beschleunigung der Inferenz großer Sprachmodelle mit niedriger Bitrate auf CPUs
Premium-NeuproduktProgrammierungInferenz mit niedriger BitrateCPU-Optimierung
T-MAC ist eine Kernel-Bibliothek, die die gemischtpräzise Matrixmultiplikation durch die Verwendung von Lookup-Tabellen direkt unterstützt, ohne Quantisierungsoperationen. Sie zielt darauf ab, die Inferenz großer Sprachmodelle mit niedriger Bitrate auf CPUs zu beschleunigen. Sie unterstützt verschiedene Modelle mit niedriger Bitrate, darunter GPTQ/gguf W4A16, BitDistiller/EfficientQAT W2A16 und BitNet W1(.58)A8 auf ARM/Intel CPUs unter OSX/Linux/Windows. T-MAC erreicht auf einem Surface Laptop 7 eine Token-Generierungsdurchsatzrate von 20 Token pro Sekunde auf einem einzelnen Kern und 48 Token pro Sekunde auf vier Kernen für ein 3B BitNet-Modell – 4- bis 5-mal schneller als der bisher beste CPU-Framework für niedrige Bitraten (llama.cpp).
T-MAC Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34