El equipo de modelos grandes de Doubao, perteneciente a ByteDance, anunció recientemente que ha superado con éxito los cuellos de botella clave de la arquitectura de modelos de expertos mixtos (MoE) y ha lanzado una importante tecnología de optimización llamada COMET. Esta tecnología mejora significativamente la eficiencia del entrenamiento de modelos grandes, logrando una mejora de hasta 1,7 veces y reduciendo los costos de entrenamiento en un 40%.
Nota de la fuente: La imagen fue generada por IA, proveída por Midjourney.
Según la información proporcionada, la tecnología COMET ya se ha aplicado en el entrenamiento de clústeres de miles de tarjetas gráficas en ByteDance, ahorrando millones de horas de potencia de cálculo de GPU. En comparación con otras soluciones de optimización MoE de código abierto recientes, como DualPipe de DeepSeek, COMET presenta una mayor compatibilidad y facilidad de uso. Se puede integrar en los marcos de entrenamiento MoE existentes como un plugin, admite los modelos grandes más populares de la industria y no requiere modificaciones invasivas en el marco de entrenamiento.
Los datos técnicos muestran que, después de introducir COMET, una sola capa MoE puede lograr una aceleración de 1,96 veces, con una mejora de eficiencia promedio de extremo a extremo de 1,71 veces, y muestra un rendimiento estable en diferentes estrategias de paralelismo, escalas de entrada y entornos de hardware. Más importante aún, COMET también se puede utilizar junto con la solución DualPipe de DeepSeek, lo que podría reducir aún más significativamente los costos de entrenamiento del modelo.
La publicación de código abierto de esta tecnología sin duda representa un nuevo avance en el campo de los modelos grandes y podría acelerar el desarrollo y la aplicación de estos modelos.
Enlace del artículo:https://arxiv.org/pdf/2502.19811
Enlace del código abierto:https://github.com/bytedance/flux?continueFlag=c1d74dd2912ab3909a1a27fe4f5cf519