SliceGPT es una nueva solución de poda post-entrenamiento que reduce la dimensionalidad de la incrustación de la red reemplazando cada matriz de pesos con una matriz más pequeña (densa). A través de extensos experimentos, demostramos que SliceGPT puede eliminar hasta el 25% de los parámetros del modelo (incluidas las incrustaciones) de los modelos LLAMA2-70B, OPT 66B y Phi-2, manteniendo un 99%, 99% y 90% del rendimiento en tareas de cero-shot, respectivamente. Nuestros modelos SliceGPT se ejecutan en GPUs más pequeñas y son más rápidos sin ninguna optimización de código adicional: en una GPU de consumo de 24 GB, reducimos la computación total de inferencia de LLAMA2-70B al 64% del modelo denso; en una GPU A100 de 40 GB, la reducimos al 66%. Ofrecemos una nueva perspectiva sobre la invariancia computacional en las redes Transformer, lo que hace posible SliceGPT. Esperamos que esto inspire y promueva nuevas vías para reducir las necesidades de memoria y computación de los modelos preentrenados en el futuro.