最近、アリババ傘下のAnt GroupのLingチームが、Arxivのプレプリントサーバーに「全てのFLOPが重要:高度なGPUなしで3000億パラメーターの混合専門家LING大規模言語モデルを拡張する」というタイトルの論文を発表しました。この論文では、彼らが開発した2つの新しい大規模言語モデル、百灵軽量版(Ling-Lite)と百灵強化版(Ling-Plus)を紹介しています。これらのモデルは、低性能ハードウェア上で効率的にトレーニングできるように設計されており、コストの大幅な削減を実現しています。
百灵軽量版のパラメーター数は168億個で、活性化パラメーターは27.5億個です。一方、強化版の基盤モデルは、パラメーター数が2900億個、活性化パラメーターは288億個という巨大な規模を誇ります。どちらのモデルも業界トップレベルのパフォーマンスを達成しており、特に強化版は、3000億パラメーターのMoEモデルが国産GPUを搭載した低性能デバイス上でトレーニングされた場合でも、ハイエンドのNVIDIAチップを使用したモデルと同等の性能を発揮します。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
一般的に、MoEモデルのトレーニングには、NVIDIAのH100やH800などの高価で高性能なGPUが必要とされ、コストが高く、チップ不足の影響も受けるため、リソースが限られた環境での利用が制限されていました。そこで、Ant GroupのLingチームは、「高度なGPUを使用しない」という新たな目標を掲げ、リソースと予算の制約を突破しました。彼らの革新的なトレーニング戦略には、動的パラメーター割り当て、混合精度スケジューリング、そして強化されたトレーニング例外処理メカニズムが含まれており、これにより中断への対応時間が短縮され、モデル評価プロセスが最適化され、検証サイクルが50%以上短縮されました。
実験では、Lingチームは9兆個のトークンを用いてLing-Plusの事前トレーニングを行いました。その結果、高性能ハードウェアを使用して1兆個のトークンをトレーニングするコストは約635万元(人民元)であるのに対し、Ant Groupの最適化手法を用いた低スペックハードウェアでのトレーニングコストは約508万元となり、約20%のコスト削減を実現しました。同時に、アリババの通義Qwen2.5-72B-InstructやDeepSeek-V2.5-1210-Chatと同等の性能を達成しています。
この技術成果が広く応用されれば、国産大規模言語モデルに、より経済的で効率的なソリューションを提供し、NVIDIAチップへの依存度を減らし、将来の人工知能の発展に新たな道を切り開くことになるでしょう。