Skywork-MoE-Base-FP8

Modelo MoE de alto rendimiento con 14.600 millones de parámetros

Producto ComúnProgramaciónMoEModelo a gran escala
Skywork-MoE es un modelo de experto mixto (MoE) de alto rendimiento con 14.600 millones de parámetros, 16 expertos y 2.200 millones de parámetros de activación. Este modelo se inicializa a partir del punto de control denso del modelo Skywork-13B. Se introducen dos técnicas innovadoras: normalización lógica de compuertas, que mejora la diversidad de expertos; y un coeficiente de pérdida auxiliar adaptable, que permite el ajuste del coeficiente de pérdida auxiliar específico de la capa. Skywork-MoE muestra un rendimiento comparable o superior al de modelos con más parámetros o parámetros de activación en varias pruebas de referencia populares, como C-Eval, MMLU, CMMLU, GSM8K, MATH y HumanEval.
Abrir sitio web

Skywork-MoE-Base-FP8 Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Skywork-MoE-Base-FP8 Tendencia de visitas

Skywork-MoE-Base-FP8 Distribución geográfica de las visitas

Skywork-MoE-Base-FP8 Fuentes de tráfico

Skywork-MoE-Base-FP8 Alternativas