SliceGPT-切片GPT：通过删除行和列来压缩大型语言模型

切片GPT是一种新的后训练稀疏化方案，它通过用较小（密集）的矩阵替换每个权重矩阵来减少网络的嵌入维度。通过大量实验，我们展示了切片GPT可以在保持99%、99%和90%的零-shot任务性能的前提下，移除LLAMA2-70B、OPT 66B和Phi-2模型的高达25%的模型参数（包括嵌入）。我们的切片模型在较少的GPU上运行，并且在不进行任何额外代码优化的情况下运行速度更快：在24GB消费级GPU上，我们将LLAMA2-70B的推理总计算量减少到密集模型的64%；在40GB A100 GPU上，我们将其减少到66%。我们提供了一个新的见解，即变压器网络中的计算不变性，这使得切片GPT成为可能。我们希望它能激发并促进未来减少预训练模型的内存和计算需求的新途径。