Uma equipe de pesquisa conjunta da ByteDance e da Universidade de Pequim publicou um artigo no arXiv apresentando o MegaScale, seu sistema de produção usado para treinar modelos de linguagem grandes. O MegaScale construiu um único cluster com mais de 10.000 GPUs, atingindo uma taxa de utilização de FLOP do modelo de 55,2%. O sistema também inclui um conjunto de ferramentas de diagnóstico para monitorar componentes e eventos do sistema, identificar as causas raiz e implementar tolerância a falhas e mitigação de atrasos.
ByteDance e Universidade de Pequim criam MegaScale: um único 'cluster de dez mil placas' para treinar LLMs

开源中国
520
© Todos os direitos reservados AIbase Base 2024, clique para ver a fonte - https://www.aibase.com/pt/news/6052