在如今科技公司纷纷追逐在设备上实现人工智能的时代,越来越多的小型语言模型(SLM)应运而生,能够在资源受限的设备上运行。最近,Nvidia 的研究团队利用前沿的模型剪枝和蒸馏技术,推出了 Llama-3.1-Minitron4B,这是 Llama3模型的压缩版本。这个新模型在性能上不仅可以与更大的模型媲美,还能与同等规模的小型模型竞争,同时在训练和部署上都显得更加高效。

剪枝和蒸馏是创建更小、更高效语言模型的两项关键技术。剪枝是指去除模型中不重要的部分,包括 “深度剪枝”—— 去掉整个层,和 “宽度剪枝”—— 去掉特定元素如神经元和注意力头。而模型蒸馏则是从一个大模型(即 “教师模型”)转移知识和能力到一个更小、更简单的 “学生模型”。

蒸馏主要有两种方式,第一种是通过 “SGD 训练”,让学生模型学习教师模型的输入和响应,第二种是 “经典知识蒸馏”,在这里,学生模型除了学习结果外,还要学习教师模型的内部激活。

在之前的一项研究中,Nvidia 的研究人员成功地将 Nemotron15B 模型通过剪枝和蒸馏的方式减少到一个8亿参数的模型,最终又进一步精简至4亿参数。这个过程不仅在著名的 MMLU 基准测试中提高了16% 的性能,而且所需的训练数据也比从头训练少了40倍。

image.png

此次,Nvidia 团队在 Llama3.18B 模型的基础上,采用相同的方法打造出一个4亿参数的模型。首先,他们在一个包含940亿个标记的数据集上对未剪枝的8B 模型进行了微调,以应对训练数据和蒸馏数据集之间的分布差异。接着,采用了深度剪枝和宽度剪枝两种方式,最终得到了 Llama-3.1-Minitron4B 的两个不同版本。

研究人员通过 NeMo-Aligner 对剪枝后的模型进行了微调,并评估其在指令跟随、角色扮演、检索增强生成(RAG)和函数调用等方面的能力。

结果显示,尽管训练数据量较小,Llama-3.1-Minitron4B 的性能依然接近其他小型模型,表现出色。该模型的宽度剪枝版本已在 Hugging Face 上发布,允许商业使用,帮助更多用户和开发者受益于其高效和卓越的表现。

image.png

image.png

官方博客:https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

划重点:

🌟 Llama-3.1-Minitron4B 是 Nvidia 基于剪枝和蒸馏技术推出的小型语言模型,具有高效的训练和部署能力。  

📈 该模型在训练过程中使用的标记量比从头训练减少了40倍,性能却有明显提升。  

🔓 宽度剪枝版本已在 Hugging Face 发布,方便用户进行商业使用和开发。