Skywork-MoE-Base-FP8

Modelo MoE de alto desempenho com 14,6 bilhões de parâmetros

Produto ComumProgramaçãoMoEModelo em larga escala
Skywork-MoE é um modelo de mistura de especialistas (MoE) de alto desempenho com 14,6 bilhões de parâmetros, 16 especialistas e 2,2 bilhões de parâmetros ativos. O modelo foi inicializado a partir de um checkpoint denso do modelo Skywork-13B. Introduz duas técnicas inovadoras: normalização lógica de portões, para melhorar a diversidade de especialistas; e coeficiente de perda auxiliar adaptativo, permitindo o ajuste de coeficientes de perda auxiliar específicos para cada camada. O Skywork-MoE demonstra desempenho comparável ou superior a modelos com mais parâmetros ou parâmetros ativos maiores em vários benchmarks populares, como C-Eval, MMLU, CMMLU, GSM8K, MATH e HumanEval.
Abrir Site

Skywork-MoE-Base-FP8 Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

Skywork-MoE-Base-FP8 Tendência de Visitas

Skywork-MoE-Base-FP8 Distribuição Geográfica das Visitas

Skywork-MoE-Base-FP8 Fontes de Tráfego

Skywork-MoE-Base-FP8 Alternativas