Im intensiven Wettbewerb der künstlichen Intelligenz verändert ein Millionen-Dollar-Experiment die Trainingsmethoden großer Sprachmodelle grundlegend. Das Forschungsteam von StepStar hat kürzlich bahnbrechende Forschungsergebnisse veröffentlicht. Mit fast 1 Million NVIDIA H800 GPU-Stunden Rechenleistung trainierten sie von Grund auf 3.700 Modelle unterschiedlicher Größe und summierten dabei unglaubliche 100 Billionen Token. Dabei wurde ein universelles Skalierungsgesetz entdeckt, das als „Step Law“ bezeichnet wird und neue Richtlinien für das effiziente Training großer Sprachmodelle liefert.

Diese Studie geht über die Optimierung von Hyperparametern hinaus und ist die erste umfassende Untersuchung der Stabilität optimaler Hyperparameter für verschiedene Formen, Dichten und Datenverteilungen. Die Ergebnisse zeigen, dass das Step Law unabhängig von der Modellarchitektur und der Herkunft (Sprache oder Domäne) der Trainingsdaten eine erstaunliche Robustheit aufweist, was seinen praktischen Wert erheblich steigert.

Die 3.700 trainierten Modelle umfassen verschiedene Größen, Hyperparameter-Kombinationen, Formen, Datenverhältnisse und Dichten, einschließlich MoE- und Dense-Architekturen. Durch diese umfangreichen Experimente stellten sie fest, dass die optimale Lernrate mit der Größe der Modellparameter und der Datengröße in einem Potenzgesetz-Verhältnis steht, während die optimale Batch-Größe hauptsächlich von der Datengröße abhängt. Diese Entdeckung revolutioniert das traditionelle Verständnis der Hyperparametereinstellung.

Metaverse Science-Fiction Cyberpunk Malerei (1) großes Modell

Bildquelle: Das Bild wurde mit KI generiert und stammt vom Midjourney Lizenzdienst.

Die experimentellen Daten zeigen, dass bei fester Modell- und Datengröße die Landschaft der Hyperparameteroptimierung deutlich konvex ist. Dies bedeutet, dass es einen stabilen und leicht zu findenden Bereich optimaler Hyperparameter gibt. Um dies zu verifizieren, erstellte das Forschungsteam einen dreidimensionalen Visualisierungsraum, der die Auswirkungen von Lernrate und Batch-Größe auf den Trainingsverlust anschaulich darstellt. Das Ergebnis zeigt deutlich eine „Tal“-Form, wobei der konvexe Boden ein relativ flaches Gebiet ist. Dies liefert wertvolle theoretische Grundlagen für die praktische Hyperparameter-Optimierung.

Um die gesamte KI-Community von dieser Entdeckung profitieren zu lassen, hat das Team ein universelles Werkzeug zur Schätzung optimaler Hyperparameter entwickelt und veröffentlicht. Die Vorhersagen dieses Werkzeugs weichen im Vergleich zur global optimalen Hyperparameter-Konfiguration, die durch erschöpfende Suche ermittelt wurde, nur um 0,09 % ab. Dies bedeutet, dass Forscher und Ingenieure nicht mehr auf teure Gittersuchen angewiesen sind, sondern direkt über dieses Werkzeug nahezu optimale Hyperparameter-Konfigurationen erhalten können.

Besonders beeindruckend ist die Universalität des Step Law. Das Forschungsteam hat seinen Anwendungsbereich aus drei verschiedenen Blickwinkeln verifiziert: Erstens kann das Step Law den Bereich optimaler Hyperparameter genau vorhersagen, unabhängig davon, ob die Modellform breit, tief oder ausgeglichen ist. Zweitens gilt dieses Gesetz nicht nur für Dense-Modelle, sondern lässt sich auch gut auf MoE-Modelle mit unterschiedlicher Dichte erweitern. Drittens zeigt das Step Law eine erstaunliche Stabilität, unabhängig davon, ob die Trainingsdaten englischdominant, zweisprachig (Englisch und Chinesisch), eine Mischung aus Code und Englisch oder hauptsächlich Code sind.

Die Studie zeigt auch die Optimierungsrichtung der Lernratenplanungsstrategie auf. Im Gegensatz zu traditionellen Lernraten-Abschwächungsstrategien schlägt das Team die Verwendung einer festen minimalen Lernrate (1e-5) vor, anstatt den Minimalwert wie bei traditionellen Methoden auf ein Zehntel des Maximalwerts zu setzen. Diese Änderung ermöglicht es dem Training, in der späteren Phase einen angemesseneren Parameterschritt beizubehalten und verhindert effektiv anhaltende Oszillationen der Verlustfunktion in der Konvergenzphase.

Darüber hinaus wurde festgestellt, dass die optimalen Hyperparameter für einen geglätteten Trainingsverlust und einen Validierungsverlust weitgehend übereinstimmen. Diese Entdeckung bietet eine wirtschaftlichere Methode zur Hyperparameterauswahl: Forscher können die Hyperparameteranpassung durch Überwachung des geglätteten Trainingsverlusts steuern, ohne die Modellleistung häufig auf dem Validierungsdatensatz bewerten zu müssen.

Trotz der bemerkenswerten Ergebnisse räumt das StepStar-Forschungsteam ein, dass dies nur ein Anfang ist. Sie planen, die Details der Experimente, einschließlich der endgültigen Checkpoints von fast 4000 Modellen, schrittweise zu veröffentlichen, damit die gesamte Community eingehendere Analysen und theoretische Erklärungen durchführen kann. Zukünftige Forschungsrichtungen umfassen die Untersuchung der Konvexität des dreidimensionalen Raums Loss-BS-LR, die Verbesserung der Anpassungsmethoden für optimale Hyperparameter, die Erklärung der Veränderungen in den optimalen Bereichen verschiedener Konfigurationen und die eingehende Untersuchung der Trainingsdynamik unter verschiedenen Einstellungen.

Die Folgearbeiten der Predictable Scale-Serie werden sich möglicherweise weiter mit der Leistungsprognose von sehr großen Modellen, den Skalierungseigenschaften von Code & Math und den Skalierungseigenschaften verschiedener Attention-Typen befassen. Es ist absehbar, dass diese Reihe von Studien umfassendere theoretische Anleitungen und praktische Werkzeuge für das effiziente Training großer Sprachmodelle liefern und die Entwicklung der KI-Technologie in Richtung höherer Effizienz und besserer Steuerbarkeit vorantreiben wird.