A Tencent lançou recentemente a versão 2.0 de sua rede Starlink, uma atualização significativa que trouxe melhorias de desempenho notáveis para o treinamento de modelos de inteligência artificial em larga escala. A nova versão apresenta avanços em vários aspectos, incluindo escala de rede, desempenho de hardware, protocolos de comunicação e diagnóstico de falhas.
De acordo com informações disponíveis, em termos de escala de rede, a Starlink 2.0 suporta uma rede de 100.000 placas em um único cluster, fornecendo um forte suporte de infraestrutura para treinamento de IA em larga escala. Essa expansão estabelece uma base para o treinamento de modelos de IA ainda maiores no futuro.
Observação da fonte da imagem: A imagem foi gerada por IA, fornecida pelo provedor de serviços de licenciamento de imagens Midjourney.
Em termos de atualização de hardware, a capacidade do switch desenvolvido pela Tencent aumentou de 25,6T para 51,2T, dobrando sua capacidade. Simultaneamente, a velocidade do módulo de silício óptico desenvolvido internamente foi atualizada de 200G para 400G, também dobrando sua velocidade. A nova versão também inclui um adaptador de rede de computação desenvolvido internamente, atingindo uma largura de banda de comunicação de 3,2T, líder no setor. Essas atualizações de hardware forneceram uma base sólida para uma melhoria significativa no desempenho da rede.
Em relação aos protocolos de comunicação, a Tencent lançou o novo protocolo TiTa 2.0, cuja localização de implantação foi transferida do switch para o adaptador de rede. Além disso, o algoritmo de congestionamento foi atualizado para um algoritmo de controle de congestionamento ativo. Essas otimizações resultaram em um aumento de 30% na eficiência de comunicação e um aumento de 10% na eficiência de treinamento de modelos grandes.
Além disso, a Tencent lançou a nova biblioteca de comunicação coletiva de alto desempenho TCCL 2.0. Essa biblioteca emprega a tecnologia de comunicação paralela heterogênea NVLINK+NET, permitindo a transmissão paralela de dados. Combinada com o algoritmo adaptativo Auto-Tune Network Expert, o sistema pode ajustar automaticamente vários parâmetros com base em diferenças no modelo de máquina, escala de rede e algoritmos de modelo. Essa atualização resultou em um aumento adicional de 30% no desempenho de comunicação e um aumento adicional de 10% na eficiência de treinamento de modelos grandes.
Vale ressaltar que os efeitos combinados das atualizações do TiTa e do TCCL resultaram em um aumento total de 60% na eficiência de comunicação da rede Starlink e um aumento total de 20% na eficiência de treinamento de modelos grandes. Essa melhoria de desempenho significativa acelerará significativamente o processo de treinamento de modelos de IA, fornecendo um ambiente de trabalho mais eficiente para pesquisadores e desenvolvedores.