T-MAC
Accélération de l'inférence sur CPU des grands modèles linguistiques à faible nombre de bits
Nouveau Produit PremiumProgrammationInfèrence à faible nombre de bitsOptimisation CPU
T-MAC est une bibliothèque noyau qui prend en charge directement la multiplication matricielle de précision mixte à l'aide de tables de recherche, sans opération de quantification, visant à accélérer l'inférence des grands modèles linguistiques à faible nombre de bits sur CPU. Elle prend en charge plusieurs modèles à faible nombre de bits, notamment W4A16 de GPTQ/gguf, W2A16 de BitDistiller/EfficientQAT et BitNet W1(.58)A8 sur les CPU ARM/Intel sous OSX/Linux/Windows. Sur un Surface Laptop 7, T-MAC a atteint un débit de génération de jetons de 20 jetons par seconde sur un seul cœur et 48 jetons par seconde sur quatre cœurs pour un modèle BitNet 3B, soit 4 à 5 fois plus rapide que les frameworks CPU à faible nombre de bits les plus avancés existants (llama.cpp).
T-MAC Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34