Skywork-MoE
Modèle MoE haute performance de 14,6 milliards de paramètres
Nouveau Produit PremiumProgrammationModèle MoEModèle linguistique de grande envergure
Skywork-MoE est un modèle d'expert mixte (MoE) haute performance doté de 14,6 milliards de paramètres, comprenant 16 experts et 2,2 milliards de paramètres d'activation. Ce modèle est initialisé à partir du point de contrôle dense du modèle Skywork-13B et introduit deux techniques innovantes : une normalisation de la logique de la porte pour améliorer la diversité des experts, et des coefficients de perte auxiliaire adaptatifs permettant un ajustement spécifique par couche. Skywork-MoE atteint des performances comparables ou supérieures à celles de modèles ayant plus de paramètres ou de paramètres d'activation, tels que Grok-1, DBRX, Mistral 8*22 et Deepseek-V2.
Skywork-MoE Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34