Skywork-MoE-Base-FP8
Hochleistungs-MoE-Modell mit 14,6 Milliarden Parametern
Normales ProduktProgrammierungMoEGroßes Sprachmodell
Skywork-MoE ist ein hochperformantes Mixture-of-Experts (MoE)-Modell mit 14,6 Milliarden Parametern, 16 Experten und 2,2 Milliarden Aktivierungsparametern. Das Modell wurde von einem dichten Checkpoint des Skywork-13B-Modells initialisiert. Es integriert zwei innovative Techniken: Gating-Logik-Normalisierung zur Verbesserung der Expertendichte und einen adaptiven Hilfsverlustkoeffizienten, der eine schichtenweise Anpassung des Hilfsverlustkoeffizienten ermöglicht. Skywork-MoE zeigt in verschiedenen gängigen Benchmarks wie C-Eval, MMLU, CMMLU, GSM8K, MATH und HumanEval eine vergleichbare oder sogar überlegene Performance im Vergleich zu Modellen mit mehr Parametern oder Aktivierungsparametern.
Skywork-MoE-Base-FP8 Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44