Skywork-MoE-Base-FP8

Modèle MoE hautes performances de 14,6 milliards de paramètres

Produit OrdinaireProgrammationMoEModèle à grande échelle
Skywork-MoE est un modèle expert mixte (MoE) hautes performances de 14,6 milliards de paramètres, comprenant 16 experts et 2,2 milliards de paramètres activés. Ce modèle est initialisé à partir d'un point de contrôle dense du modèle Skywork-13B. Il intègre deux technologies innovantes : une normalisation logique de la porte, améliorant la diversité des experts ; et un coefficient de perte auxiliaire adaptatif, permettant l'ajustement du coefficient de perte auxiliaire spécifique à la couche. Skywork-MoE affiche des performances comparables ou supérieures à celles de modèles ayant plus de paramètres ou de paramètres activés sur divers benchmarks populaires tels que C-Eval, MMLU, CMMLU, GSM8K, MATH et HumanEval.
Ouvrir le site Web

Skywork-MoE-Base-FP8 Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

Skywork-MoE-Base-FP8 Tendance des visites

Skywork-MoE-Base-FP8 Distribution géographique des visites

Skywork-MoE-Base-FP8 Sources de trafic

Skywork-MoE-Base-FP8 Alternatives