AI業界をリードするNVIDIAは、最近、2つの新型大規模言語モデル、Nemotron-4-Minitron-4BとNemotron-4-Minitron-8Bをオープンソース化しました。これは技術的な飛躍であるだけでなく、AI分野において効率革命を引き起こす出来事と言えるでしょう。
従来のAI大規模言語モデルのトレーニングには、膨大なデータと計算能力が必要でした。しかし、NVIDIAは構造化剪定と知識蒸留という2つの効率的なトレーニング手法を採用することで、この要求を大幅に削減しました。具体的には、ゼロからトレーニングする場合と比較して、必要なトレーニングトークンデータは40分の1に、計算コストは1.8分の1に削減されています。この成果は、既存のモデルLlama-3.18Bを深く最適化した結果です。
構造化剪定とは、重要でない重みを削除することでニューラルネットワークを簡素化する技術です。ランダムな剪定とは異なり、構造化剪定は重み行列の構造を維持し、ニューロン全体やアテンションヘッド全体を削除することで、剪定後のモデルがGPUやTPUなどのハードウェア上で効率的に動作するようにします。
知識蒸留とは、生徒モデルが教師モデルを模倣することで性能を向上させる手法です。NVIDIAの実践では、logitベースの知識蒸留により、生徒モデルは教師モデルの深い理解を学習し、トレーニングデータの大幅な削減にもかかわらず、優れた性能を維持することができます。
構造化剪定と知識蒸留によってトレーニングされたMinitron-4BとMinitron-8Bモデルは、MMLUでのスコアが16%向上し、Mistral7B、Gemma7B、Llama-38Bなどの著名なモデルに匹敵する性能を示しました。この成果は、NVIDIAの手法の有効性を証明するとともに、AI大規模言語モデルのトレーニングと展開に新たな可能性をもたらします。
NVIDIAによるこのオープンソース化は、AI技術におけるリーダーシップを示すだけでなく、AIコミュニティに貴重なリソースを提供します。AI技術の進歩に伴い、より効率的でインテリジェントなAIの発展を促進する、さらなる革新的な手法が登場することが期待されます。
モデルのアドレス: