Recientemente, el equipo Ling de Ant Group publicó en la plataforma de preimpresión Arxiv un artículo técnico titulado "Cada FLOP es crucial: Escalar un modelo lingüístico grande mixto de expertos LING de 3000 mil millones de parámetros sin GPUs de alta gama". El artículo presenta dos nuevos modelos de lenguaje grandes: Ling-Lite y Ling-Plus. Estos modelos incorporan varias innovaciones en su diseño que permiten un entrenamiento eficiente en hardware de bajo rendimiento, reduciendo significativamente los costos.

Ling-Lite tiene 16.8 mil millones de parámetros, con 2.75 mil millones de parámetros de activación. El modelo base de Ling-Plus cuenta con la impresionante cifra de 2900 mil millones de parámetros, y 28.8 mil millones de parámetros de activación. Ambos modelos alcanzan un rendimiento líder en la industria, especialmente Ling-Plus, cuyo modelo MoE de 3000 mil millones de parámetros, entrenado en equipos de bajo rendimiento con GPUs nacionales, muestra un desempeño comparable al de modelos con chips de alta gama de Nvidia.

Acelerador, aceleración, luz

Nota de la fuente: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney

Generalmente, el entrenamiento de modelos MoE requiere GPUs de alto rendimiento y costosas, como las Nvidia H100 y H800. Esto no solo es caro, sino que también está limitado por la escasez de chips, lo que afecta su aplicación en entornos con recursos limitados. Por ello, el equipo Ling de Ant Group planteó un nuevo objetivo: escalar el modelo "sin GPUs de alta gama", superando las limitaciones de recursos y presupuesto. Sus innovadoras estrategias de entrenamiento incluyen la asignación dinámica de parámetros, la programación de precisión mixta y un mecanismo mejorado de manejo de excepciones de entrenamiento. Estas estrategias reducen eficazmente el tiempo de respuesta a las interrupciones y optimizan el proceso de evaluación del modelo, comprimiendo el ciclo de validación en más del 50%.

En los experimentos, el equipo Ling entrenó Ling-Plus con 9 billones de tokens. Los resultados muestran que el costo de entrenar 1 billón de tokens con hardware de alto rendimiento es de aproximadamente 6.35 millones de yuanes, mientras que con el método optimizado de Ant Group, el costo en hardware de baja especificación se reduce a alrededor de 5.08 millones de yuanes, un ahorro de casi el 20%. Simultáneamente, el rendimiento es comparable al de Ali Tongyi Qwen2.5-72B-Instruct y DeepSeek-V2.5-1210-Chat.

Si este logro tecnológico se aplica ampliamente, proporcionará una solución más económica y eficiente para los modelos grandes nacionales, reduciendo la dependencia de los chips Nvidia y abriendo nuevos caminos para el futuro desarrollo de la inteligencia artificial.