Recentemente, uma equipe de pesquisa da Universidade Jiao Tong de Xangai e da Universidade de Harvard lançou um novo método de ajuste fino de modelos – LoRA-Dash. Este novo método afirma ser mais eficiente do que os métodos LoRA existentes, especialmente no ajuste fino de tarefas específicas, atingindo resultados semelhantes com uma redução de 8 a 16 vezes na quantidade de parâmetros. Isso representa um grande avanço para tarefas de ajuste fino que exigem muitos recursos computacionais.
No contexto do rápido desenvolvimento de modelos de linguagem em larga escala, a necessidade de ajuste fino para tarefas específicas está crescendo. No entanto, o ajuste fino geralmente consome muitos recursos computacionais. Para resolver esse problema, a equipe de pesquisa introduziu a estratégia de ajuste fino eficiente em parâmetros (PEFT), sendo LoRA um exemplo típico. Através de experimentos, descobriu-se que o LoRA captura e amplifica principalmente algumas características já aprendidas no pré-treinamento, alcançando assim o efeito de ajuste fino.
No entanto, o artigo original do LoRA apresenta alguma ambiguidade na definição de “direção específica da tarefa” (TSD). A equipe de pesquisa analisou isso profundamente, definindo rigorosamente o TSD pela primeira vez e esclarecendo sua natureza. O TSD representa as direções centrais que mudam significativamente nos parâmetros do modelo durante o ajuste fino.
Para liberar o potencial do TSD em aplicações práticas, os pesquisadores propuseram o LoRA-Dash, um método que inclui duas etapas principais. A primeira etapa é a “fase de pré-lançamento”, onde é necessário identificar as direções específicas da tarefa; a segunda etapa é a “fase de corrida”, que utiliza as direções identificadas anteriormente para otimizar e ajustar o modelo, fazendo-o se adaptar melhor a tarefas específicas.
Experimentos mostraram que o LoRA-Dash superou o desempenho do LoRA em várias tarefas, como raciocínio comum, compreensão da linguagem natural e geração guiada por assunto, obtendo melhorias significativas de desempenho. Este resultado demonstra a eficácia do TSD em tarefas downstream, liberando totalmente o potencial de ajuste fino eficiente.
Atualmente, o artigo de pesquisa relevante já foi publicado e o código foi disponibilizado como open source. A equipe de pesquisa espera fornecer suporte a mais pesquisadores e desenvolvedores, tornando o processo de ajuste fino de modelos mais eficiente.
Entrada do projeto:https://chongjiesi.site/project/2024-lora-dash.html
** Destaques:**
🌟 **Lançamento do método LoRA-Dash:** O novo método de ajuste fino de modelos LoRA-Dash foi lançado, sendo mais eficiente que o LoRA e com uma grande redução na demanda de poder computacional.
⚡ **Direção específica da tarefa definida:** A equipe de pesquisa definiu rigorosamente a “direção específica da tarefa” (TSD), esclarecendo sua importância no processo de ajuste fino.
🚀 **Resultados experimentais significativos:** Os experimentos mostraram que o LoRA-Dash superou o LoRA em tarefas como raciocínio comum e compreensão da linguagem natural, demonstrando o enorme potencial do ajuste fino eficiente.