Recientemente, investigadores de la Universidad Carnegie Mellon, la Universidad de Stanford, la Universidad de Harvard y la Universidad de Princeton revelaron un nuevo hallazgo sobre el entrenamiento de modelos lingüísticos grandes (LLM): el aumento de los datos de preentrenamiento no siempre implica un mejor rendimiento del modelo. Por el contrario, señalan que un preentrenamiento excesivo puede provocar una disminución del rendimiento del modelo, un fenómeno conocido como "sobreentrenamiento catastrófico".

En un estudio, los investigadores entrenaron el modelo OLMo-1B con 2,3 billones y 3 billones de tokens, respectivamente. Sorprendentemente, aunque el segundo modelo fue entrenado con más datos, su rendimiento disminuyó hasta en un 3% en algunas pruebas de referencia (como AlpacaEval y ARC). Esto cuestiona la creencia tradicional de que más entrenamiento siempre es mejor.

Metaverso, Ciencia Ficción, Ciberpunk, Pintura (3) Modelo grande

Nota de la fuente de la imagen: La imagen fue generada por IA, proveída por Midjourney.

Los investigadores explican que esta disminución del rendimiento está relacionada con el fenómeno de la "sensibilidad gradual". A medida que el modelo recibe más tokens, se vuelve más vulnerable a pequeños cambios. Por ejemplo, incluso pequeños ajustes o la introducción de ruido durante el ajuste fino pueden revertir los resultados del entrenamiento anterior. Para verificar esto, los investigadores introdujeron ruido gaussiano en el modelo, y los resultados mostraron que el rendimiento del modelo entrenado durante más tiempo disminuyó de manera más significativa.

En el estudio, los autores presentan un concepto clave: el "punto de inflexión", donde el entrenamiento adicional comienza a disminuir el rendimiento en lugar de mejorarlo. Para modelos más pequeños como OLMo-1B, este punto de inflexión suele ocurrir después de más de 2,5 billones de tokens. Los investigadores advierten que el "sobreentrenamiento catastrófico" puede ser inevitable, especialmente cuando las tareas de preentrenamiento y ajuste fino no coinciden.

Aunque los investigadores no recomiendan abandonar por completo el preentrenamiento, enfatizan la importancia de considerar una cantidad moderada de preentrenamiento. Las conclusiones del estudio instan a reconsiderar el diseño del proceso de entrenamiento completo en el contexto de la ampliación del modelo. Para los desarrolladores de IA que buscan escalar el tamaño del modelo, el mensaje es claro: a veces, menos es más.