Recientemente, un equipo de investigación de la Universidad Jiao Tong de Shanghai y la Universidad de Harvard presentó un nuevo método de ajuste fino de modelos: LoRA-Dash. Este nuevo método afirma ser más eficiente que los métodos LoRA existentes, especialmente en el ajuste fino de tareas específicas, donde puede lograr el mismo rendimiento con una reducción de 8 a 16 veces en la cantidad de parámetros. Esto sin duda representa un gran avance para las tareas de ajuste fino que requieren muchos recursos computacionales.

image.png

En el contexto del rápido desarrollo de los modelos lingüísticos a gran escala, la necesidad de ajustar finamente tareas específicas está creciendo. Sin embargo, el ajuste fino suele consumir una gran cantidad de recursos computacionales. Para solucionar este problema, el equipo de investigación introdujo la estrategia de ajuste fino eficiente en parámetros (PEFT), siendo LoRA un ejemplo típico. Los experimentos revelaron que LoRA principalmente captura y amplifica ciertas características ya aprendidas durante el preentrenamiento, logrando así el ajuste fino.

Sin embargo, el artículo original de LoRA presenta cierta ambigüedad en la definición de la "dirección específica de la tarea" (TSD). El equipo de investigación analizó esto en profundidad, definiendo rigurosamente el TSD por primera vez y aclarando su naturaleza. El TSD representa las direcciones centrales que cambian significativamente en los parámetros del modelo durante el ajuste fino.

image.png

Para liberar el potencial del TSD en aplicaciones reales, los investigadores propusieron LoRA-Dash, un método que consta de dos etapas clave. La primera etapa es la "etapa de prelanzamiento", donde se deben identificar las direcciones específicas de la tarea; la segunda etapa es la "etapa de aceleración", que utiliza las direcciones identificadas previamente para optimizar y ajustar el modelo, adaptándolo mejor a la tarea específica.

Los experimentos muestran que LoRA-Dash supera el rendimiento de LoRA en múltiples tareas, logrando mejoras significativas en tareas como el razonamiento de sentido común, la comprensión del lenguaje natural y la generación impulsada por el tema. Este resultado demuestra la efectividad del TSD en tareas posteriores y libera plenamente el potencial del ajuste fino eficiente.

Actualmente, el artículo de investigación se ha publicado y el código se ha abierto de forma pública. El equipo de investigación espera poder brindar apoyo a más investigadores y desarrolladores, facilitando un proceso de ajuste fino de modelos más eficiente.

Enlace al proyecto:https://chongjiesi.site/project/2024-lora-dash.html

**Puntos clave:**

🌟 **Lanzamiento del método LoRA-Dash:** Se presenta un nuevo método de ajuste fino de modelos, LoRA-Dash, más eficiente que LoRA y con una reducción significativa de la demanda de potencia de cálculo.

⚡ **Definición clara de la dirección específica de la tarea:** El equipo de investigación ha definido rigurosamente la "dirección específica de la tarea" (TSD), aclarando su importancia en el proceso de ajuste fino.

🚀 **Resultados experimentales significativos:** Los experimentos muestran que LoRA-Dash supera a LoRA en tareas como el razonamiento de sentido común y la comprensión del lenguaje natural, demostrando el enorme potencial del ajuste fino eficiente.