バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル(MoE)アーキテクチャの主要なボトルネックを克服し、COMETという重要な最適化技術をオープンソース化すると発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40%削減しました。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
発表によると、COMET技術はバイトダンスの万枚規模のGPUクラスタトレーニングで実際に適用されており、数百万GPU時間分のトレーニング計算能力を節約しました。最近のDeepSeekがオープンソース化したDualPipeなどのMoE最適化ソリューションと比較して、COMETはより高い互換性と利便性を備えており、既存のMoEトレーニングフレームワークにプラグインのように直接接続でき、業界主流の大規模言語モデルをサポートし、トレーニングフレームワークを侵襲的に変更する必要がありません。
技術データによると、COMETを導入することで、単一のMoE層で1.96倍の高速化を実現し、エンドツーエンドの平均効率は1.71倍向上し、さまざまな並列戦略、入力規模、ハードウェア環境において安定した性能を示しました。さらに注目すべきは、COMETはDeepSeekのDualPipeソリューションと併用でき、モデルトレーニングコストをさらに大幅に削減できる可能性があることです。
この技術のオープンソース化は、大規模言語モデル分野に新たなブレークスルーをもたらし、大規模言語モデルの研究開発と応用を加速させることが期待されます。
論文アドレス:https://arxiv.org/pdf/2502.19811
オープンソースアドレス:https://github.com/bytedance/flux?continueFlag=c1d74dd2912ab3909a1a27fe4f5cf519