Skywork-MoE-Base-FP8
Modelo MoE de alto desempenho com 14,6 bilhões de parâmetros
Produto ComumProgramaçãoMoEModelo em larga escala
Skywork-MoE é um modelo de mistura de especialistas (MoE) de alto desempenho com 14,6 bilhões de parâmetros, 16 especialistas e 2,2 bilhões de parâmetros ativos. O modelo foi inicializado a partir de um checkpoint denso do modelo Skywork-13B. Introduz duas técnicas inovadoras: normalização lógica de portões, para melhorar a diversidade de especialistas; e coeficiente de perda auxiliar adaptativo, permitindo o ajuste de coeficientes de perda auxiliar específicos para cada camada. O Skywork-MoE demonstra desempenho comparável ou superior a modelos com mais parâmetros ou parâmetros ativos maiores em vários benchmarks populares, como C-Eval, MMLU, CMMLU, GSM8K, MATH e HumanEval.
Skywork-MoE-Base-FP8 Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44