Skywork-MoE-Base-FP8
Modelo MoE de alto rendimiento con 14.600 millones de parámetros
Producto ComúnProgramaciónMoEModelo a gran escala
Skywork-MoE es un modelo de experto mixto (MoE) de alto rendimiento con 14.600 millones de parámetros, 16 expertos y 2.200 millones de parámetros de activación. Este modelo se inicializa a partir del punto de control denso del modelo Skywork-13B. Se introducen dos técnicas innovadoras: normalización lógica de compuertas, que mejora la diversidad de expertos; y un coeficiente de pérdida auxiliar adaptable, que permite el ajuste del coeficiente de pérdida auxiliar específico de la capa. Skywork-MoE muestra un rendimiento comparable o superior al de modelos con más parámetros o parámetros de activación en varias pruebas de referencia populares, como C-Eval, MMLU, CMMLU, GSM8K, MATH y HumanEval.
Skywork-MoE-Base-FP8 Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44