SliceGPT é uma nova solução de esparsidade pós-treinamento que reduz a dimensionalidade de incorporação da rede substituindo cada matriz de pesos por uma matriz menor (densa). Através de extensos experimentos, demonstramos que o SliceGPT pode remover até 25% dos parâmetros do modelo (incluindo embeddings) dos modelos LLAMA2-70B, OPT 66B e Phi-2, mantendo 99%, 99% e 90% do desempenho em tarefas zero-shot, respectivamente. Nossos modelos SliceGPT rodam em GPUs menores e são mais rápidos sem otimizações de código adicionais: em uma GPU de consumo de 24 GB, reduzimos a computação total de inferência do LLAMA2-70B para 64% do modelo denso; em uma GPU A100 de 40 GB, reduzimos para 66%. Apresentamos um novo insight sobre a invariância computacional em redes Transformer, que possibilita o SliceGPT. Esperamos que isso inspire e promova novas abordagens para reduzir as necessidades de memória e computação de modelos pré-treinados no futuro.