Skywork-MoE

Modelo MoE de alto rendimiento con 14.600 millones de parámetros

Nuevo Producto PremiumProgramaciónModelo MoEModelo de lenguaje a gran escala
Skywork-MoE es un modelo de experto mixto (MoE) de alto rendimiento con 14.600 millones de parámetros, que incluye 16 expertos y 2.200 millones de parámetros de activación. Este modelo se inicializa a partir del punto de control denso del modelo Skywork-13B e incorpora dos técnicas innovadoras: la normalización de logits de puerta para mejorar la diversidad de expertos y los coeficientes de pérdida auxiliar adaptativos que permiten el ajuste de coeficientes de pérdida auxiliar específicos de la capa. Skywork-MoE ofrece un rendimiento comparable o superior al de modelos con más parámetros o parámetros de activación, como Grok-1, DBRX, Mistral 8*22 y Deepseek-V2.
Abrir sitio web

Skywork-MoE Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

Skywork-MoE Tendencia de visitas

Skywork-MoE Distribución geográfica de las visitas

Skywork-MoE Fuentes de tráfico