Skywork-MoE-Base ist ein hochleistungsfähiges Mixed-Expert-(MoE-)Modell mit 146 Milliarden Parametern, bestehend aus 16 Experten und 22 Milliarden aktivierten Parametern. Das Modell wurde von einem dichten Checkpoint des Skywork-13B-Modells initialisiert und beinhaltet zwei innovative Technologien: eine Gate-Logik-Normalisierung zur Verbesserung der Expertendynamik und einen adaptiven Hilfsverlustkoeffizienten, der eine schichtenweise Anpassung des Hilfsverlustkoeffizienten ermöglicht. Skywork-MoE zeigt in verschiedenen gängigen Benchmark-Tests eine vergleichbare oder überlegene Leistung im Vergleich zu Modellen mit mehr Parametern oder aktivierten Parametern.