En el campo de la inteligencia artificial, el entrenamiento de grandes modelos de lenguaje (LLM) se ha convertido en una dirección importante para impulsar el progreso tecnológico. Sin embargo, a medida que aumenta el tamaño de los modelos y los conjuntos de datos, los métodos de optimización tradicionales, especialmente AdamW, muestran gradualmente sus limitaciones. Los investigadores se enfrentan a una serie de desafíos, como altos costos computacionales, inestabilidad en el entrenamiento, incluyendo la desaparición o explosión de gradientes, actualizaciones inconsistentes de la matriz de parámetros y altas demandas de recursos en entornos distribuidos. Por lo tanto, se necesita urgentemente una tecnología de optimización más eficiente y estable para hacer frente a estas complejidades.
Para abordar estos desafíos, Moonshot AI (Lado Oscuro de la Luna) y la Universidad de California, Los Ángeles (UCLA) han desarrollado conjuntamente Moonlight, un modelo Mixture-of-Expert (MoE) que utiliza el optimizador Muon. Moonlight ofrece dos configuraciones: una con 3 mil millones de parámetros activados y otra con un total de 16 mil millones de parámetros, entrenados con 5,7 billones de tokens. La innovación del optimizador Muon radica en el uso del método iterativo de Newton-Schulz para la ortogonalización de matrices, asegurando la uniformidad de las actualizaciones de gradiente en el espacio de parámetros del modelo. Esta mejora proporciona una alternativa prometedora a AdamW tradicional, aumentando la eficiencia y la estabilidad del entrenamiento.
En cuanto a los detalles técnicos, Moonlight realiza dos ajustes clave al optimizador Muon. Primero, se introduce la técnica de regularización de pesos (weight decay) para controlar el crecimiento de los pesos durante el entrenamiento de modelos grandes con una gran cantidad de tokens. Segundo, se calibra la magnitud de la actualización para cada parámetro, escalándola según la raíz cuadrada de la dimensión máxima de la matriz de pesos, logrando así una actualización consistente.
Mediante la evaluación empírica de Moonlight, los investigadores descubrieron que su rendimiento en puntos de control intermedios supera al de los modelos entrenados con AdamW tradicional. Por ejemplo, en tareas de comprensión del lenguaje, Moonlight obtuvo puntuaciones más altas en el benchmark MMLU. En tareas de generación de código, la mejora del rendimiento fue aún más significativa, lo que indica que el mecanismo de optimización de Muon contribuye positivamente al rendimiento de la tarea.
La exitosa implementación del proyecto Moonlight establecerá un nuevo estándar para el entrenamiento de grandes modelos de lenguaje. Se espera que la implementación de código abierto del optimizador Muon, junto con la publicación de los modelos preentrenados y los puntos de control intermedios, promueva futuras investigaciones sobre técnicas de optimización escalables.
github:https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file
huggingface:https://huggingface.co/moonshotai/Moonlight-16B-A3B
论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Puntos clave:
🌟 El modelo Moonlight es un modelo Mixture-of-Expert desarrollado conjuntamente por Moonshot AI y UCLA, que ofrece configuraciones de 3 mil millones y 16 mil millones de parámetros, entrenados con 5,7 billones de tokens.
⚙️ El optimizador Muon, mediante el método iterativo de Newton-Schulz y la técnica de regularización de pesos, mejora significativamente la eficiencia y la estabilidad del entrenamiento de modelos grandes.
📈 Los resultados empíricos muestran que Moonlight supera a los modelos entrenados con AdamW tradicional en varias tareas, mostrando una mejor capacidad de comprensión del lenguaje y generación de código.