Uma equipe de pesquisa conjunta da ByteDance e da Universidade de Pequim publicou um artigo no arXiv apresentando o MegaScale, seu sistema de produção usado para treinar modelos de linguagem grandes. O MegaScale construiu um único cluster com mais de 10.000 GPUs, atingindo uma taxa de utilização de FLOP do modelo de 55,2%. O sistema também inclui um conjunto de ferramentas de diagnóstico para monitorar componentes e eventos do sistema, identificar as causas raiz e implementar tolerância a falhas e mitigação de atrasos.