近日,来自上海交通大学和哈佛大学的研究团队推出了一种全新的模型微调方法 ——LoRA-Dash。这个新方法声称比现有的 LoRA 方法更加高效,特别是在特定任务的微调中,它可以在参数量减少8到16倍的情况下,依然达到相同的效果。这无疑是对那些需要大量计算资源的微调任务的一次重大突破。

image.png

在大规模语言模型快速发展的背景下,微调特定任务的需求日益增长。然而,微调往往需要消耗大量的计算资源。为了解决这一问题,研究团队引入了参数高效微调(PEFT)策略,LoRA 就是一个典型的例子。通过实验发现,LoRA 主要是通过捕捉一些预训练中已学习到的特征并放大,从而达到微调的效果。

然而,LoRA 的原论文在 “特定任务方向”(TSD)的定义上存在一些模糊之处。研究团队对此进行了深入分析,首次对 TSD 进行了严格的定义,并明确了它的性质。TSD 代表着在微调过程中,模型参数中显著变化的核心方向。

image.png

为了解放 TSD 在实际应用中的潜力,研究人员提出了 LoRA-Dash,这一方法包含两个关键阶段。第一个阶段是 “预启动阶段”,此时需要识别出任务特定的方向;第二个阶段是 “冲刺阶段”,利用之前识别的方向进行优化调整,使模型更好地适应特定任务。

实验表明,LoRA-Dash 在多个任务上都超越了 LoRA 的表现,例如在常识推理、自然语言理解和主体驱动生成等任务中都取得了显著的性能提升。这一成果显示了 TSD 在下游任务中的有效性,充分释放了高效微调的潜力。

目前,相关研究论文已公开,代码也已开源,研究团队希望能够为更多的研究者和开发者提供支持,让大家在微调模型的过程中更加高效。

项目入口:https://chongjiesi.site/project/2024-lora-dash.html

** 划重点:**

🌟 **LoRA-Dash 方法推出:** 新的模型微调方法 LoRA-Dash 应运而生,相较于 LoRA 更为高效,算力需求大幅降低。

⚡ ** 明确特定任务方向:** 研究团队对 “特定任务方向”(TSD)进行了严格的定义,阐明其在微调过程中的重要性。

🚀 ** 显著实验成果:** 实验显示 LoRA-Dash 在常识推理、自然语言理解等任务中表现优于 LoRA,展现了高效微调的巨大潜力。