深層計算分野に新たな強力ツールが登場!ムーア・スレッドは本日、AIフレームワーク「MT-MegatronLM」と「MT-TransformerEngine」の正式オープンソース化を発表しました。この取り組みは、国産計算基盤に強力な推進力を与えるでしょう。これらのフレームワークは、FP8混合訓練戦略と高性能演算子ライブラリを深く融合することで、国産フル機能GPU上で混合並列訓練と推論を実現し、大規模モデル訓練の効率と安定性を大幅に向上させました。
ムーア・スレッドが今回オープンソース化したMT-MegatronLMフレームワークは、フル機能GPU向けに設計されており、denseモデル、マルチモーダルモデル、MoE(混合専門家)モデルの高効率訓練をサポートし、現在のAI分野における多様な訓練ニーズに対応します。一方、MT-TransformerEngineはTransformerモデルの訓練と推論最適化に重点を置き、演算子融合、並列化加速戦略などの技術により、ムーア・スレッドのフル機能GPUの高密度計算の可能性を効果的に引き出し、memory bound演算子の効率を大幅に向上させます。
これらのフレームワークの技術的ブレークスルーは、ハードウェア適合とアルゴリズム革新の深い連携に表れています。まず、様々な種類のモデルの混合並列訓練をサポートし、複雑な計算シーンにおける異なるモデルアーキテクチャに柔軟に対応できます。次に、ムーア・スレッドGPUがネイティブサポートするFP8混合精度訓練戦略と組み合わせることで、訓練効率を効果的に向上させます。第三に、高性能演算子ライブラリmuDNNと通信ライブラリMCCLの深い統合により、計算集約型タスクとマルチカード協調の通信オーバーヘッドを体系的に最適化します。同時に、オープンソースのSimumaxライブラリと組み合わせることで、並列化戦略を自動的に探索し、異なるモデルとアクセラレーション環境に合わせて並列訓練性能を最大化できます。さらに、フレームワークに組み込まれたrewind例外回復メカニズムにより、最新の安定ノードに自動的にロールバックして訓練を継続できるため、大規模訓練の安定性が大幅に向上します。最後に、2つのフレームワークはGPU主流エコシステムと互換性があり、既存エコシステムの円滑な移行を保証するとともに、開発者による独自のAI技術スタック構築のための基盤を提供します。
実際のアプリケーションでは、これらのフレームワークは印象的なパフォーマンスを示しました。フル機能GPUクラスタ上で、Llama38Bモデルの訓練タスクはFP8技術を利用することで、lossがほとんど損失なく、MFU(モデルスループット利用率)は90%以上を達成し、従来と比較して訓練速度が28%向上しました。さらに、ムーア・スレッドはDeepSeek並列アルゴリズムDualPipeの高効率サポートを深く統合し、オープンソース化しました。MT-DualPipeはMT-MegatronフレームワークとMT-TransformerEngineフレームワークに完全に統合され、DeepSeek V3訓練プロセスの完全な再現を実現し、MLA、MTP、および様々な専門家バランス戦略をサポートします。様々なTransformer演算子融合技術により、これらのフレームワークはメモリ帯域幅利用率を大幅に向上させ、memory boundボトルネックを効果的に緩和し、国産GPUのハードウェアの可能性をさらに引き出します。
ムーア・スレッドは、これらのフレームワークの継続的な最適化を行い、Dual Pipe/ZeroBubble並列戦略によるバブルレートのさらなる低減と並列訓練効率の向上、訓練性能と安定性を向上させる様々な独自のFP8最適化戦略、訓練過程におけるフォールトトレランス能力と効率の向上のための非同期チェックポイント戦略、計算とビデオメモリオーバーヘッドの削減と訓練速度の向上のための最適化された再計算戦略、訓練過程におけるフォールトトレランス能力を強化するための独自のフォールトトレランストレーニングアルゴリズム、そしてムーア・スレッドFlashMLAとDeepGemmライブラリの統合によるムーア・スレッドGPUの計算能力とFP8計算能力のさらなる引き出し、計算性能と効率の全面的な向上など、一連の新しい機能の導入を計画しています。
これらの技術的ブレークスルーとオープンソース化の取り組みは、ムーア・スレッドのAIコンピューティング分野における能力を示すだけでなく、国産AIインフラの発展に新たな可能性を切り開きます。AIモデル訓練分野における更なるブレークスルーに期待しましょう。