大規模言語モデル(LLM)の急速な発展に伴い、モデルの訓練と推論のコストが研究と応用の焦点となっています。最近、テンセント混元チームは重要な研究を発表し、低ビット浮動小数点量子化訓練の「スケーリング則」について深く掘り下げました。この研究の中心は、モデルの精度を下げることで、性能を損なうことなく計算と記憶コストを大幅に削減する方法を探ることです。
研究チームは、パラメータ規模と精度が異なる366組もの浮動小数点量子化訓練を行い、モデルサイズ(N)、訓練データ量(D)、指数部(E)、仮数部(M)、量子化粒度(B)など、訓練結果に影響を与える様々な要因を体系的に分析しました。これらの実験を通じて、研究者たちは様々な精度において、最適な訓練結果を得るための訓練データとモデルパラメータの有効な構成方法を示す統一的なスケーリング則を導き出しました。
最も重要なのは、研究が任意の低精度浮動小数点量子化訓練において、「限界効果」が存在することを示していることです。つまり、特定のデータ量でモデルの性能は最適になり、それ以上のデータ量では効果が低下する可能性があります。さらに、研究では、理論上、最適なコストパフォーマンスを実現する浮動小数点量子化訓練精度は4~8ビットであることが判明しました。これは、効率的なLLM開発にとって重要な指針となります。
この研究は、浮動小数点量子化訓練分野の空白を埋めるだけでなく、ハードウェアメーカーにも参考となり、様々な精度において浮動小数点演算能力を最適化するのに役立ちます。最終的に、この研究は大規模モデル訓練の実践に明確な方向性を示し、リソースが限られた状況でも効率的な訓練結果を実現できるようにします。