全球人工智能的领军企业英伟达(Nvidia)最近开源了两款新型大模型:Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。这两个模型的开源,不仅是技术上的一次飞跃,更在AI领域掀起了一场效率革命。

传统的AI大模型训练需要消耗大量的数据和算力。然而,英伟达通过采用结构化剪枝和知识蒸馏两种高效的训练方法,显著降低了这一需求。具体来说,与从零开始训练相比,新模型所需的训练token数据减少了40倍,算力成本节省了1.8倍。这一成就的背后,是英伟达对现有模型Llama-3.18B的深度优化。

image.png

结构化剪枝是一种神经网络压缩技术,它通过去除不重要的权重来简化模型结构。不同于随机剪枝,结构化剪枝保留了权重矩阵的结构,通过移除整个神经元或注意力头,使得剪枝后的模型更适合在GPU、TPU等硬件上高效运行。

知识蒸馏是一种通过让学生模型模仿教师模型来提升性能的方法。在英伟达的实践中,通过基于logit的知识蒸馏,学生模型能够学习到教师模型的深层理解,即使在大幅减少训练数据的情况下,也能保持出色的性能。

经过结构化剪枝和知识蒸馏训练的Minitron-4B和Minitron-8B模型,在MMLU上的评分提升了16%,性能可与Mistral7B、Gemma7B和Llama-38B等知名模型媲美。这一成果证明了英伟达方法的有效性,同时也为AI大模型的训练和部署提供了新的可能性。

英伟达的这一开源举措,不仅展示了其在AI技术上的领导地位,也为AI社区带来了宝贵的资源。随着AI技术的不断进步,我们期待看到更多创新的方法,推动AI向更高效、更智能的方向发展。

模型地址:

https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base

https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base