Tencent ha lanzado recientemente la versión 2.0 de su red Starlink, una importante actualización que ha mejorado significativamente el rendimiento del entrenamiento de modelos de inteligencia artificial a gran escala. Esta nueva versión ha logrado avances en varios aspectos, incluyendo la escala de la red, el rendimiento del hardware, los protocolos de comunicación y el diagnóstico de fallos.
Según se informa, en cuanto a la escala de la red, Starlink 2.0 admite una red de 100.000 tarjetas en un solo clúster, proporcionando una sólida infraestructura para el entrenamiento de IA a gran escala. Esta expansión sienta las bases para el entrenamiento de modelos de IA aún más grandes en el futuro.
Nota de la fuente de la imagen: Imagen generada por IA, proveedora de servicios de licencias de imágenes Midjourney
En cuanto a las mejoras de hardware, la capacidad del conmutador desarrollado por Tencent ha aumentado de 25.6T a 51.2T, duplicando su capacidad. Simultáneamente, la velocidad del módulo de silicio óptico propio ha pasado de 200G a 400G, duplicando también su velocidad. La nueva versión también incorpora una tarjeta de red de computación propia, lo que permite un ancho de banda de comunicación de 3.2T, líder en la industria. Estas mejoras de hardware han sentado las bases para una mejora significativa del rendimiento de la red.
En cuanto a los protocolos de comunicación, Tencent ha presentado el nuevo protocolo TiTa 2.0, cuya ubicación de implementación se ha trasladado del conmutador a la tarjeta de red. Además, el algoritmo de congestión se ha actualizado a un algoritmo de control de congestión activo. Estas optimizaciones han mejorado la eficiencia de la comunicación en un 30% y la eficiencia del entrenamiento de modelos grandes en un 10%.
Además, Tencent ha lanzado la nueva biblioteca de comunicación colectiva de alto rendimiento TCCL 2.0. Esta biblioteca utiliza la tecnología de comunicación paralela heterogénea NVLINK+NET, lo que permite la transmisión paralela de datos. En combinación con el algoritmo adaptativo Auto-Tune Network Expert, el sistema puede ajustar automáticamente varios parámetros según las diferencias en el modelo, la escala de la red y el algoritmo. Esta actualización ha mejorado el rendimiento de la comunicación en un 30% adicional, y la eficiencia del entrenamiento de modelos grandes en un 10% adicional.
Cabe destacar que el efecto combinado de las actualizaciones de TiTa y TCCL ha mejorado la eficiencia de la comunicación de la red Starlink en un 60% y la eficiencia del entrenamiento de modelos grandes en un 20%. Esta mejora de rendimiento significativa acelerará considerablemente el proceso de entrenamiento de los modelos de IA, proporcionando a los investigadores y desarrolladores un entorno de trabajo más eficiente.