En la feroz competencia de la inteligencia artificial, un experimento a gran escala con un coste de millones de dólares está cambiando silenciosamente la forma de entrenar los grandes modelos de lenguaje. El equipo de investigación de Step Star acaba de publicar un importante resultado de investigación: utilizando casi 1 millón de horas de potencia de cálculo de GPU NVIDIA H800, entrenaron desde cero 3.700 modelos de diferentes tamaños, acumulando un asombroso entrenamiento de 100 billones de tokens, revelando una ley de escalado universal llamada "Ley Step", que proporciona una nueva guía para el entrenamiento eficiente de grandes modelos de lenguaje.

Esta investigación no solo explora la optimización de hiperparámetros, sino que es el primer trabajo que examina exhaustivamente la estabilidad de los hiperparámetros óptimos del modelo bajo diferentes formas, grados de dispersión y distribuciones de datos. Los resultados de la investigación muestran que la Ley Step presenta una robustez asombrosa independientemente del diseño de la arquitectura del modelo o del idioma o dominio de los datos de entrenamiento, lo que aumenta considerablemente el valor de esta herramienta en aplicaciones prácticas.

Los 3.700 modelos entrenados por el equipo abarcan diferentes tamaños, combinaciones de hiperparámetros, formas, proporciones de datos y grados de dispersión, incluyendo arquitecturas MoE y Dense. A través de estos experimentos a gran escala, descubrieron que la tasa de aprendizaje óptima presenta una variación de ley de potencias con el tamaño de los parámetros del modelo y el tamaño de los datos, mientras que el tamaño de lote óptimo está principalmente relacionado con el tamaño de los datos. Este descubrimiento rompe con la comprensión tradicional de la configuración de hiperparámetros en la industria.

Metaverso, ciencia ficción, ciberpunk, pintura (1) Modelo grande

Nota de la fuente de la imagen: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney

Los datos experimentales muestran que, en condiciones de tamaño de modelo y tamaño de datos fijos, el paisaje de optimización de hiperparámetros presenta una clara característica convexa, lo que significa que existe una región de hiperparámetros óptimos estable y fácil de encontrar. Para verificar esto, el equipo de investigación construyó un espacio de visualización tridimensional que muestra intuitivamente el impacto de la tasa de aprendizaje y el tamaño de lote en la pérdida de entrenamiento. Los resultados muestran claramente una forma de "valle", cuyo fondo convexo es una región relativamente plana, lo que proporciona una valiosa base teórica para el ajuste de hiperparámetros en la práctica.

Para que este descubrimiento beneficie a toda la comunidad de IA, el equipo desarrolló y lanzó una herramienta universal de estimación de hiperparámetros óptimos. La diferencia de rendimiento entre los resultados de predicción de esta herramienta y los hiperparámetros óptimos globales obtenidos mediante búsqueda exhaustiva es de solo 0,09%. Esto significa que los investigadores e ingenieros ya no tienen que depender de costosas búsquedas en cuadrícula, sino que pueden obtener directamente una configuración de hiperparámetros cercana a la óptima mediante esta herramienta.

Lo que es aún más impresionante es la universalidad de la Ley Step. El equipo de investigación verificó su alcance desde tres perspectivas diferentes: primero, independientemente de cómo cambie la forma del modelo, ya sea sesgado hacia el ancho, hacia la profundidad o un equilibrio entre ambos, la Ley Step puede predecir con precisión la región de hiperparámetros óptimos; segundo, esta ley no solo es aplicable a los modelos Dense, sino que también se puede extender bien a los modelos MoE con diferentes grados de dispersión; tercero, la Ley Step muestra una estabilidad asombrosa independientemente de que los datos de entrenamiento estén dominados por inglés, sean bilingües inglés-chino, una mezcla de código e inglés, o estén dominados por código.

La investigación también revela la dirección de optimización de la estrategia de programación de la tasa de aprendizaje. A diferencia de las estrategias tradicionales de disminución de la tasa de aprendizaje, el equipo propone utilizar una tasa de aprendizaje mínima fija (1e-5), en lugar del método tradicional de establecer el mínimo como una décima parte del máximo. Este cambio permite que el entrenamiento mantenga un paso de actualización de parámetros más razonable en las etapas posteriores, evitando eficazmente la oscilación continua de la función de pérdida en la etapa de convergencia.

Además, la investigación descubrió que los hiperparámetros óptimos para la pérdida de entrenamiento suavizada y la pérdida de validación son altamente consistentes, lo que proporciona un método más económico para la selección de hiperparámetros: los investigadores pueden utilizar el seguimiento de la pérdida de entrenamiento suavizada para guiar el ajuste de hiperparámetros, sin necesidad de evaluar con frecuencia el rendimiento del modelo en el conjunto de validación.

A pesar de los notables resultados, el equipo de investigación de Step Star admite que esto es solo el comienzo. Planean publicar gradualmente los detalles de los experimentos, incluyendo los puntos de control finales de casi 4000 modelos, para que toda la comunidad pueda realizar análisis y explicaciones teóricas más profundos. Las futuras líneas de investigación incluyen la exploración de la convexidad del espacio tridimensional Loss-BS-LR, la mejora de los métodos de ajuste de hiperparámetros óptimos, la explicación de los cambios en las regiones óptimas bajo diferentes configuraciones y el estudio profundo de la dinámica de entrenamiento bajo diferentes configuraciones.

El trabajo posterior de la serie Predictable Scale puede discutir aún más la predicción del rendimiento de modelos extremadamente grandes, la naturaleza de escalado de Code & Math y las características de escalado de diferentes tipos de Attention. Es previsible que esta serie de investigaciones proporcionará una guía teórica y herramientas prácticas más completas para el entrenamiento eficiente de grandes modelos de lenguaje, impulsando el desarrollo de la tecnología de IA hacia una dirección más eficiente y controlable.