SliceGPT est une nouvelle méthode de sparsification post-entraînement qui réduit la dimensionnalité des plongements du réseau en remplaçant chaque matrice de poids par une matrice plus petite (dense). Grâce à de nombreuses expériences, nous démontrons que SliceGPT peut supprimer jusqu'à 25 % des paramètres du modèle (y compris les plongements) des modèles LLAMA2-70B, OPT 66B et Phi-2, tout en conservant 99 %, 99 % et 90 % des performances sur des tâches zéro-shot. Nos modèles Slice fonctionnent sur des GPU moins puissants et sont plus rapides sans aucune optimisation de code supplémentaire : sur un GPU grand public de 24 Go, nous réduisons la charge de calcul totale de l'inférence de LLAMA2-70B à 64 % du modèle dense ; sur un GPU A100 de 40 Go, nous la réduisons à 66 %. Nous proposons un nouvel éclairage sur l'invariance de calcul dans les réseaux de transformateurs, ce qui rend SliceGPT possible. Nous espérons qu'il stimulera et favorisera de nouvelles voies pour réduire les besoins en mémoire et en calcul des modèles pré-entraînés.