ByteDance et l'Université de Pékin créent MegaScale : un « cluster de 10 000 cartes

Une équipe de recherche de ByteDance, en collaboration avec l'Université de Pékin, a publié un article sur arXiv décrivant MegaScale, leur système de production utilisé pour entraîner des grands modèles de langage. MegaScale a mis en place un seul cluster de plus de 10 000 GPU, atteignant un taux d'utilisation des FLOP du modèle de 55,2 %. Ce système comprend également une suite d'outils de diagnostic pour surveiller les composants et les événements du système, identifier les causes profondes, et permettre la tolérance aux pannes et l'atténuation des problèmes de latence.

Actualités IA

ByteDance et l'Université de Pékin créent MegaScale : un « cluster de 10 000 cartes » unique pour l'entraînement des LLM

开源中国