T-MAC

Accélération de l'inférence sur CPU des grands modèles linguistiques à faible nombre de bits

Nouveau Produit PremiumProgrammationInfèrence à faible nombre de bitsOptimisation CPU

T-MAC est une bibliothèque noyau qui prend en charge directement la multiplication matricielle de précision mixte à l'aide de tables de recherche, sans opération de quantification, visant à accélérer l'inférence des grands modèles linguistiques à faible nombre de bits sur CPU. Elle prend en charge plusieurs modèles à faible nombre de bits, notamment W4A16 de GPTQ/gguf, W2A16 de BitDistiller/EfficientQAT et BitNet W1(.58)A8 sur les CPU ARM/Intel sous OSX/Linux/Windows. Sur un Surface Laptop 7, T-MAC a atteint un débit de génération de jetons de 20 jetons par seconde sur un seul cœur et 48 jetons par seconde sur quatre cœurs pour un modèle BitNet 3B, soit 4 à 5 fois plus rapide que les frameworks CPU à faible nombre de bits les plus avancés existants (llama.cpp).

Prend en charge l'inférence des modèles Llama quantifiés à 1/2/3/4 bits au format GPTQ.
Sur la puce Snapdragon X Elite
la vitesse de génération de jetons de T-MAC dépasse même celle du NPU.
Prise en charge native du déploiement sur Windows ARM ; T-MAC a démontré une amélioration de vitesse remarquable de 5 fois sur un Surface Laptop 7.
Grâce à l'utilisation de tables de recherche
T-MAC réduit considérablement l'utilisation des cœurs CPU
tout en diminuant la consommation d'énergie et la puissance.
Comparativement au NPU
sur la puce Snapdragon X Elite
les performances CPU de T-MAC surpassent le moteur de traitement neuronal Qualcomm Snapdragon (NPE).

T-MAC s'adresse principalement aux développeurs et aux entreprises qui ont besoin d'effectuer l'inférence de grands modèles linguistiques sur CPU
notamment ceux qui recherchent des performances d'inférence en temps réel ou quasi-réel sur des appareils périphériques. Il convient aux cas où il est nécessaire d'optimiser la consommation d'énergie et les ressources de calcul
comme les appareils mobiles
les systèmes embarqués ou tout environnement aux ressources limitées.

L'utilisation de T-MAC pour l'inférence d'un modèle BitNet 3B sur un Surface Laptop 7 a permis une amélioration de vitesse significative.
Sur la puce Snapdragon X Elite
T-MAC a atteint des performances comparables à celles du NPU
tout en réduisant la taille du modèle.
Sur un Jetson AGX Orin

Installer l'environnement Python
en veillant à ce que la version soit 3.8 pour répondre aux exigences de TVM.
Installer cmake \u003e= 3.22 et les autres dépendances en fonction du système d'exploitation.
Installer T-MAC à l'aide de pip dans un environnement virtuel et activer les variables d'environnement correspondantes.
Utiliser les scripts d'outils fournis pour l'inférence de bout en bout

Ouvrir le site Web

T-MAC Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

T-MAC Tendance des visites

T-MAC Distribution géographique des visites

T-MAC Sources de trafic

T-MAC Alternatives

T-MAC — Accélération de l'inférence sur CPU des grands modèles linguistiques à faible nombre de bits

Programmation

•Infèrence à faible nombre de bits•Optimisation CPU

108

BitNet — Un framework d'inférence pour les grands modèles de langage binaires (LLM)

Programmation

•Grands modèles de langage•Framework d'inférence

342

fastc — Outil de classification de texte léger utilisant des embeddings de grands modèles linguistiques.

Programmation

•Classification de texte•Similarité cosinus

168

Best AI Websites & Tools

T-MAC

T-MAC Dernière situation du trafic

T-MAC Tendance des visites

T-MAC Distribution géographique des visites

T-MAC Sources de trafic

T-MAC Alternatives

T-MAC — Accélération de l'inférence sur CPU des grands modèles linguistiques à faible nombre de bits

BitNet — Un framework d'inférence pour les grands modèles de langage binaires (LLM)

fastc — Outil de classification de texte léger utilisant des embeddings de grands modèles linguistiques.