T-MAC

Beschleunigung der Inferenz großer Sprachmodelle mit niedriger Bitrate auf CPUs

Premium-NeuproduktProgrammierungInferenz mit niedriger BitrateCPU-Optimierung

T-MAC ist eine Kernel-Bibliothek, die die gemischtpräzise Matrixmultiplikation durch die Verwendung von Lookup-Tabellen direkt unterstützt, ohne Quantisierungsoperationen. Sie zielt darauf ab, die Inferenz großer Sprachmodelle mit niedriger Bitrate auf CPUs zu beschleunigen. Sie unterstützt verschiedene Modelle mit niedriger Bitrate, darunter GPTQ/gguf W4A16, BitDistiller/EfficientQAT W2A16 und BitNet W1(.58)A8 auf ARM/Intel CPUs unter OSX/Linux/Windows. T-MAC erreicht auf einem Surface Laptop 7 eine Token-Generierungsdurchsatzrate von 20 Token pro Sekunde auf einem einzelnen Kern und 48 Token pro Sekunde auf vier Kernen für ein 3B BitNet-Modell – 4- bis 5-mal schneller als der bisher beste CPU-Framework für niedrige Bitraten (llama.cpp).

Unterstützung der Inferenz von Llama-Modellen mit 1/2/3/4-Bit-Quantisierung im GPTQ-Format.
Auf dem neuesten Snapdragon X Elite Chip übertrifft T-MAC sogar die Geschwindigkeit der NPU bei der Token-Generierung.
Native Unterstützung der Bereitstellung unter Windows ARM; T-MAC zeigt auf einem Surface Laptop 7 eine deutliche 5-fache Geschwindigkeitssteigerung.
Durch die Verwendung von Lookup-Tabellen reduziert T-MAC die CPU-Kernnutzung deutlich und senkt gleichzeitig den Energieverbrauch.
Auf dem Snapdragon X Elite Chip übertrifft die CPU-Leistung von T-MAC die des Qualcomm Snapdragon Neural Processing Engine (NPE).
Auf dem Jetson AGX Orin ist die 2-Bit-mpGEMM-Leistung von T-MAC vergleichbar mit der einer CUDA-GPU.

T-MAC richtet sich hauptsächlich an Entwickler und Unternehmen
die die Inferenz großer Sprachmodelle auf CPUs durchführen müssen
insbesondere für Anwendungen
die eine Echtzeit- oder nahezu Echtzeit-Inferenzleistung auf Edge-Geräten benötigen. Es eignet sich für Anwendungen
bei denen Energieverbrauch und Rechenressourcen optimiert werden müssen

Die Inferenz des 3B BitNet-Modells mit T-MAC auf einem Surface Laptop 7 zeigte eine deutliche Geschwindigkeitssteigerung.
Auf dem Snapdragon X Elite Chip wurde mit T-MAC eine mit der NPU vergleichbare Leistung bei gleichzeitig reduzierter Modellgröße erreicht.
Auf dem Jetson AGX Orin zeigte T-MAC im Vergleich zu einer CUDA-GPU bei bestimmten Aufgaben einen Vorteil beim Energieverbrauch.

Installieren Sie eine Python-Umgebung (Version 3.8 für TVM-Kompatibilität).
Installieren Sie je nach Betriebssystem cmake \u003e= 3.22 und andere Abhängigkeiten.
Installieren Sie T-MAC mit pip in einer virtuellen Umgebung und aktivieren Sie die entsprechenden Umgebungsvariablen.
Verwenden Sie die bereitgestellten Skripts für die End-to-End-Inferenz oder integrieren Sie sie mit llama.cpp für die Inferenz spezifischer Aufgaben.
Passen Sie die Parameter nach Bedarf an