En el rápido desarrollo de los grandes modelos lingüísticos (LLM, Large Language Model), el costo de entrenamiento e inferencia se ha convertido en un foco de atención creciente en la investigación y las aplicaciones. Recientemente, el equipo de Tencent HunYuan publicó una investigación importante que explora a fondo las "leyes de escalamiento" del entrenamiento de cuantificación de punto flotante de baja precisión, es decir, las leyes de escalamiento del entrenamiento de cuantificación de punto flotante. El núcleo de esta investigación radica en explorar cómo reducir significativamente los costos de cómputo y almacenamiento sin pérdida de rendimiento al reducir la precisión del modelo.

image.png

El equipo de investigación realizó hasta 366 grupos de entrenamiento de cuantificación de punto flotante con diferentes escalas de parámetros y precisión, analizando sistemáticamente varios factores que afectan el rendimiento del entrenamiento, incluyendo el tamaño del modelo (N), la cantidad de datos de entrenamiento (D), los bits del exponente (E), los bits de la mantisa (M) y la granularidad de la cuantificación (B). A través de estos experimentos, los investigadores obtuvieron una ley de escalamiento unificada que revela cómo configurar eficazmente los datos de entrenamiento y los parámetros del modelo con diferentes precisiones para lograr el mejor rendimiento de entrenamiento.

image.png

Lo más importante es que la investigación indica que, en cualquier entrenamiento de cuantificación de punto flotante de baja precisión, existe un "rendimiento límite", es decir, con una cantidad específica de datos, el rendimiento del modelo alcanzará su punto óptimo, y superar esta cantidad de datos puede provocar una disminución del rendimiento. Además, la investigación también descubrió que, en teoría, la precisión óptima de entrenamiento de cuantificación de punto flotante en términos de relación costo-beneficio debería estar entre 4 y 8 bits, lo cual tiene un significado guía importante para el desarrollo de LLM eficientes.

image.png

Esta investigación no solo llena un vacío en el campo del entrenamiento de cuantificación de punto flotante, sino que también proporciona una referencia para los fabricantes de hardware en el futuro, ayudándoles a optimizar la capacidad de cálculo de punto flotante con diferentes precisiones. En última instancia, esta investigación proporciona una dirección clara para la práctica del entrenamiento de grandes modelos, asegurando que se pueda lograr un entrenamiento eficiente incluso con recursos limitados.

Dirección del artículo: https://arxiv.org/pdf/2501.02423