Skywork-MoE-Base-FP8
Modèle MoE hautes performances de 14,6 milliards de paramètres
Produit OrdinaireProgrammationMoEModèle à grande échelle
Skywork-MoE est un modèle expert mixte (MoE) hautes performances de 14,6 milliards de paramètres, comprenant 16 experts et 2,2 milliards de paramètres activés. Ce modèle est initialisé à partir d'un point de contrôle dense du modèle Skywork-13B. Il intègre deux technologies innovantes : une normalisation logique de la porte, améliorant la diversité des experts ; et un coefficient de perte auxiliaire adaptatif, permettant l'ajustement du coefficient de perte auxiliaire spécifique à la couche. Skywork-MoE affiche des performances comparables ou supérieures à celles de modèles ayant plus de paramètres ou de paramètres activés sur divers benchmarks populaires tels que C-Eval, MMLU, CMMLU, GSM8K, MATH et HumanEval.
Skywork-MoE-Base-FP8 Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44