Skywork-MoE
Modelo MoE de alto rendimiento con 14.600 millones de parámetros
Nuevo Producto PremiumProgramaciónModelo MoEModelo de lenguaje a gran escala
Skywork-MoE es un modelo de experto mixto (MoE) de alto rendimiento con 14.600 millones de parámetros, que incluye 16 expertos y 2.200 millones de parámetros de activación. Este modelo se inicializa a partir del punto de control denso del modelo Skywork-13B e incorpora dos técnicas innovadoras: la normalización de logits de puerta para mejorar la diversidad de expertos y los coeficientes de pérdida auxiliar adaptativos que permiten el ajuste de coeficientes de pérdida auxiliar específicos de la capa. Skywork-MoE ofrece un rendimiento comparable o superior al de modelos con más parámetros o parámetros de activación, como Grok-1, DBRX, Mistral 8*22 y Deepseek-V2.
Skywork-MoE Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34