淘天グループと愛橙科技は、大規模言語モデルのトレーニング性能向上、トレーニングコスト削減、そしてLLaMAコミュニティとの互換性を目的とした大規模モデルトレーニングフレームワーク「Megatron-LLaMA」をオープンソース化しました。このフレームワークは、32枚のGPUを用いたトレーニングにおいて176%の高速化を実現し、ネットワーク不安定性に対しても高い耐性を示します。Megatron-LLaMAは、最適な設定の自動選択、モデル構造変更への対応、そして様々なハードウェア環境下での最高性能トレーニングソリューションに焦点を当てています。
淘天グループと愛橙科技が巨大言語モデル訓練フレームワークMegatron-LLaMAをオープンソース化
