Tencent Cloud ha lanzado recientemente una versión mejorada de su red Starlink 2.0, diseñada para mejorar la eficiencia del entrenamiento de modelos grandes. En versiones anteriores, la comunicación sincrónica de los resultados de cálculo de los modelos grandes ocupaba más del 50% del tiempo, lo que provocaba una baja eficiencia. La nueva versión de Starlink 2.0 presenta varias mejoras:

微信截图_20240701164156.png

1. Admite redes de hasta 100.000 tarjetas GPU en un solo clúster, duplicando la escala, mejorando la eficiencia de la comunicación de red en un 60%, la eficiencia de entrenamiento de modelos grandes en un 20% y reduciendo el tiempo de localización de fallos de días a minutos.

2. Actualización de los equipos de red de desarrollo propio, como conmutadores, módulos ópticos y tarjetas de red, para una infraestructura más fiable que admite clústeres con más de 100.000 GPU.

3. El nuevo protocolo de comunicación TiTa 2.0, implementado en la tarjeta de red, utiliza un algoritmo de control de congestión activo, mejorando la eficiencia de la comunicación en un 30% y la eficiencia de entrenamiento de modelos grandes en un 10%.

4. La biblioteca de comunicación colectiva de alto rendimiento TCCL 2.0 utiliza la comunicación paralela heterogénea NVLINK+NET para la transmisión paralela de datos, y cuenta con el algoritmo adaptativo Auto-Tune Network Expert, mejorando el rendimiento de la comunicación en un 30% y la eficiencia de entrenamiento de modelos grandes en un 10%.

5. Se ha añadido la plataforma de simulación Lingjing, exclusiva de Tencent, para la monitorización completa de la red del clúster y la localización precisa de problemas en los nodos GPU, reduciendo el tiempo de localización de fallos en el entrenamiento de miles de tarjetas de días a minutos.

Gracias a estas mejoras, la eficiencia de comunicación de Starlink se ha incrementado en un 60%, la eficiencia de entrenamiento de modelos grandes en un 20%, y se ha mejorado la precisión de la localización de fallos. Estas mejoras contribuirán a aumentar la eficiencia y el rendimiento del entrenamiento de modelos grandes, permitiendo una utilización más eficiente de los costosos recursos de GPU.