Une équipe de recherche de ByteDance, en collaboration avec l'Université de Pékin, a publié un article sur arXiv décrivant MegaScale, leur système de production utilisé pour entraîner des grands modèles de langage. MegaScale a mis en place un seul cluster de plus de 10 000 GPU, atteignant un taux d'utilisation des FLOP du modèle de 55,2 %. Ce système comprend également une suite d'outils de diagnostic pour surveiller les composants et les événements du système, identifier les causes profondes, et permettre la tolérance aux pannes et l'atténuation des problèmes de latence.
ByteDance et l'Université de Pékin créent MegaScale : un « cluster de 10 000 cartes » unique pour l'entraînement des LLM

开源中国
520
© Tous droits réservés AIbase基地 2024, cliquez pour voir la source -https://www.aibase.com/fr/news/6052