Im Zeitalter der rasanten Entwicklung großer Sprachmodelle (Large Language Models, LLMs) werden die Kosten für Training und Inferenz zunehmend zu einem zentralen Thema in Forschung und Anwendung. Kürzlich veröffentlichte das Tencent HunYuan-Team eine wichtige Studie, die sich eingehend mit den „Scaling Laws“ des Trainings mit niedrig-bittigen Gleitkommazahlen befasst, also den Skalierungsgesetzen für das quantisierte Training. Der Kern dieser Forschung liegt darin, durch Reduzierung der Modellgenauigkeit zu untersuchen, wie sich Rechen- und Speicherkosten deutlich senken lassen, ohne die Leistung einzubüßen.

image.png

Das Forschungsteam führte über 366 Trainingsläufe mit unterschiedlichen Modellgrößen und Genauigkeiten bei der Gleitkommaquantisierung durch. Dabei wurden systematisch verschiedene Einflussfaktoren analysiert, darunter Modellgröße (N), Trainingsdatensatzgröße (D), Exponentenbits (E), Mantissebits (M) und Quantisierungsgenauigkeit (B). Anhand dieser Experimente leiteten die Forscher ein einheitliches Scaling Law ab, das aufzeigt, wie Trainingsdaten und Modellparameter bei unterschiedlichen Genauigkeiten effektiv konfiguriert werden können, um optimale Trainingsergebnisse zu erzielen.

image.png

Am wichtigsten ist, dass die Studie auf einen „Grenzwert der Effektivität“ bei jeder niedrig-bittigen Gleitkommaquantisierung hinweist: Bei einer bestimmten Datenmenge erreicht die Modellleistung ihr Optimum. Eine Überschreitung dieser Datenmenge kann zu Leistungseinbußen führen. Darüber hinaus wurde festgestellt, dass die theoretisch beste Kosten-Nutzen-Relation bei der Gleitkommaquantisierung im Bereich von 4 bis 8 Bit liegt. Dies ist eine wichtige Erkenntnis für die Entwicklung effizienter LLMs.

image.png

Die Studie schließt nicht nur eine Lücke im Bereich des Trainings mit Gleitkommaquantisierung, sondern liefert auch wichtige Erkenntnisse für Hardwarehersteller, um die Gleitkomma-Rechenleistung bei unterschiedlichen Genauigkeiten zu optimieren. Letztendlich bietet diese Forschung eine klare Richtung für die praktische Anwendung des Trainings großer Sprachmodelle und gewährleistet auch bei begrenzten Ressourcen ein effizientes Training.

论文地址:https://arxiv.org/pdf/2501.02423