Hoy, DeepSeek, empresa líder en inteligencia artificial en China, ha publicado oficialmente los resultados del cuarto día de su plan de código abierto: Optimized Parallelism Strategies (Estrategias de paralelismo optimizadas), presentando principalmente el algoritmo de paralelismo de canalización bidireccional DualPipe, el equilibrador de carga paralelo de expertos EPLB, y una optimización profunda del mecanismo de superposición de cómputo y comunicación. Esta actualización tecnológica aborda directamente los principales problemas del entrenamiento de modelos de lenguaje a gran escala, ofreciendo una nueva solución para la operación eficiente de clústeres de más de 10.000 tarjetas.
1. DualPipe: Algoritmo de paralelismo de canalización bidireccional
Como una de las tecnologías centrales de esta actualización, DualPipe está diseñado específicamente para la arquitectura V3/R1. Mediante un innovador canal de flujo de datos bidireccional, se logra una alta superposición de cómputo y comunicación. En comparación con la tubería unidireccional tradicional, esta tecnología puede mejorar significativamente el rendimiento computacional, especialmente en el entrenamiento de modelos con escalas de parámetros de cientos de miles de millones a billones. El repositorio de código de GitHub muestra que DualPipe, a través de un mecanismo de programación inteligente, ejecuta el cálculo hacia adelante de forma sincrónica en la fase de retropropagación, lo que aumenta la utilización del hardware en aproximadamente un 30%.
(Enlace del proyecto: https://github.com/deepseek-ai/DualPipe).
2. EPLB: Equilibrador de carga dinámico
Para abordar el problema de los "expertos de acceso frecuente" en el entrenamiento de modelos de expertos mixtos (MoE), la tecnología EPLB logra por primera vez el equilibrio de carga dinámico en el paralelismo de expertos. Los métodos tradicionales, debido a la distribución desigual de las tareas de los expertos, a menudo provocan una sobrecarga en algunas tarjetas de cálculo. EPLB, mediante la supervisión en tiempo real y la asignación adaptativa, aumenta la utilización general del clúster de 10.000 tarjetas a más del 92%, evitando eficazmente el desperdicio de recursos (Enlace del proyecto: https://github.com/deepseek-ai/EPLB).
3. Optimización de la superposición de cómputo y comunicación
Basándose en la herramienta de análisis de superposición de comunicación de la arquitectura V3/R1, DeepSeek ha construido por primera vez un modelo de eficiencia espacio-temporal de paralelismo 3D (paralelismo de datos/tuberías/tensores). A través del conjunto de datos de análisis de código abierto (enlace: https://github.com/deepseek-ai/profile-data), los desarrolladores pueden localizar con precisión los puntos de conflicto entre el cómputo y la comunicación, proporcionando un punto de referencia de ajuste para el entrenamiento de modelos a gran escala. Las pruebas muestran que se puede reducir el tiempo de entrenamiento de extremo a extremo en aproximadamente un 15%.
Impacto en la industria: Rompiendo los cuellos de botella en el entrenamiento de grandes modelos
Este lanzamiento tecnológico ha generado una gran atención en la industria. Los expertos señalan que la innovación combinada de DualPipe y EPLB responde directamente a dos grandes desafíos en el entrenamiento de grandes modelos: en primer lugar, a medida que el tamaño del modelo crece exponencialmente, el cuello de botella de escalabilidad de las estrategias de paralelismo tradicionales se hace cada vez más evidente; en segundo lugar, la popularización de los modelos de expertos mixtos hace que el equilibrio de carga dinámico sea una necesidad imperiosa. El responsable técnico de un fabricante de computación en la nube comentó: "Estas herramientas reducirán considerablemente el umbral de hardware para el entrenamiento de modelos de cientos de miles de millones de parámetros, y se espera que reduzcan el coste de entrenamiento entre un 20% y un 30%."
El CTO de DeepSeek enfatizó en la documentación técnica que las estrategias de código abierto se han verificado en el entrenamiento interno de varios modelos con cientos de miles de millones de parámetros, y que seguirán iterando y optimizándose en el futuro. Actualmente, las tres tecnologías se han abierto en GitHub, permitiendo a los desarrolladores personalizar su aplicación en diferentes entornos de hardware.
A medida que la competición mundial de IA entra en la etapa de "victoria por escala", DeepSeek, a través de cuatro días consecutivos de publicación de tecnologías clave de código abierto, no solo muestra la capacidad tecnológica de las empresas de IA chinas, sino que también proporciona a la industria infraestructuras reutilizables. Esta innovación tecnológica impulsada por la "colaboración abierta" podría remodelar el ecosistema industrial del entrenamiento de grandes modelos.