バイトダンスと北京大学の研究チームがarXivに論文を発表し、大規模言語モデルのトレーニングに使用される生産システムMegaScaleを紹介しました。MegaScaleは10,000枚以上のGPUを単一クラスタに構築し、モデルFLOP利用率55.2%を実現しました。このシステムには、システムコンポーネントとイベントを監視し、根本原因を特定し、耐障害性と遅延問題の軽減を実現するための診断ツールも含まれています。