Yuan2.0-M32-hf-int8
Modelo de linguagem de especialista misto de alto desempenho
Produto ComumProgramaçãoModelo de especialista mistoRoteador de atenção
Yuan2.0-M32-hf-int8 é um modelo de linguagem de especialista misto (MoE) com 32 especialistas, dos quais 2 estão ativos. O modelo melhora a eficiência da seleção de especialistas através de uma nova rede de roteamento – o roteador de atenção – resultando em uma precisão 3.8% maior do que modelos que usam redes de roteamento tradicionais. O Yuan2.0-M32 foi treinado do zero usando 200 bilhões de tokens, com um custo computacional de apenas 9,25% do necessário para um modelo denso de tamanho de parâmetro equivalente. O modelo demonstra competitividade em programação, matemática e várias áreas especializadas, utilizando apenas 3,7 bilhões de parâmetros ativos (uma pequena fração dos 4 bilhões de parâmetros totais), com um cálculo de encaminhamento por token de apenas 7,4 GFLOPS, ou seja, 1/19 do necessário para o Llama3-70B. O Yuan2.0-M32 superou o Llama3-70B nos benchmarks MATH e ARC-Challenge, alcançando precisões de 55,9% e 95,8%, respectivamente.
Yuan2.0-M32-hf-int8 Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44