T-MAC

Beschleunigung der Inferenz großer Sprachmodelle mit niedriger Bitrate auf CPUs

Premium-NeuproduktProgrammierungInferenz mit niedriger BitrateCPU-Optimierung
T-MAC ist eine Kernel-Bibliothek, die die gemischtpräzise Matrixmultiplikation durch die Verwendung von Lookup-Tabellen direkt unterstützt, ohne Quantisierungsoperationen. Sie zielt darauf ab, die Inferenz großer Sprachmodelle mit niedriger Bitrate auf CPUs zu beschleunigen. Sie unterstützt verschiedene Modelle mit niedriger Bitrate, darunter GPTQ/gguf W4A16, BitDistiller/EfficientQAT W2A16 und BitNet W1(.58)A8 auf ARM/Intel CPUs unter OSX/Linux/Windows. T-MAC erreicht auf einem Surface Laptop 7 eine Token-Generierungsdurchsatzrate von 20 Token pro Sekunde auf einem einzelnen Kern und 48 Token pro Sekunde auf vier Kernen für ein 3B BitNet-Modell – 4- bis 5-mal schneller als der bisher beste CPU-Framework für niedrige Bitraten (llama.cpp).
Website öffnen

T-MAC Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

T-MAC Besuchstrend

T-MAC Geografische Verteilung der Besuche

T-MAC Traffic-Quellen