Un nuevo estudio de la Escuela Politécnica Federal de Lausana (EPFL) compara dos métodos principales de entrenamiento adaptativo para modelos de lenguaje grandes (LLM): el aprendizaje en contexto (ICL) y el ajuste fino por instrucciones (IFT). Los investigadores utilizaron el benchmark MT-Bench para evaluar la capacidad de los modelos para seguir instrucciones, encontrando que cada método tiene ventajas en situaciones específicas.
El estudio encontró que cuando la cantidad de muestras de entrenamiento disponibles es limitada (por ejemplo, no más de 50), ICL e IFT muestran un rendimiento muy similar. Esto sugiere que ICL podría ser una alternativa viable a IFT cuando los datos son escasos.
Sin embargo, a medida que la complejidad de la tarea aumenta, como en el caso de conversaciones de varias rondas, la ventaja de IFT se hace evidente. Los investigadores creen que los modelos ICL tienden a sobreajustarse al estilo de una sola muestra, lo que resulta en un rendimiento deficiente en conversaciones complejas, incluso peor que el del modelo base.
El estudio también examinó el método URIAL, que utiliza solo tres muestras y reglas de seguimiento de instrucciones para entrenar un modelo de lenguaje base. Aunque URIAL mostró cierto éxito, aún quedó por detrás de los modelos entrenados con IFT. Los investigadores de EPFL mejoraron el rendimiento de URIAL, acercándolo al de los modelos ajustados, mediante la mejora de la estrategia de selección de muestras. Esto destaca la importancia de los datos de entrenamiento de alta calidad para ICL, IFT y el entrenamiento de modelos base.
Además, el estudio encontró que los parámetros de decodificación tienen un impacto significativo en el rendimiento del modelo. Estos parámetros determinan cómo el modelo genera texto y son cruciales tanto para los LLM base como para los modelos entrenados con URIAL.
Los investigadores señalan que incluso los modelos base, con los parámetros de decodificación adecuados, pueden seguir instrucciones hasta cierto punto.
La importancia de este estudio radica en que revela que el aprendizaje en contexto puede ajustar los modelos de lenguaje de forma rápida y eficiente, especialmente cuando las muestras de entrenamiento son limitadas. Sin embargo, para tareas complejas como conversaciones de varias rondas, el ajuste fino por instrucciones sigue siendo la mejor opción.
Con el aumento del tamaño del conjunto de datos, el rendimiento de IFT continúa mejorando, mientras que el rendimiento de ICL tiende a estabilizarse después de alcanzar un cierto número de muestras. Los investigadores enfatizan que la elección entre ICL e IFT depende de varios factores, como los recursos disponibles, la cantidad de datos y las necesidades específicas de la aplicación. Independientemente del método elegido, los datos de entrenamiento de alta calidad son cruciales.