Yuan2.0-M32-hf-int8
Modelo de lenguaje de expertos mixtos de alto rendimiento
Producto ComúnProgramaciónModelo de expertos mixtosEnrutador de atención
Yuan2.0-M32-hf-int8 es un modelo de lenguaje de expertos mixtos (MoE) con 32 expertos, de los cuales 2 están activos. Este modelo mejora la eficiencia de la selección de expertos mediante una nueva red de enrutamiento: el enrutador de atención, logrando una precisión un 3,8% superior a los modelos que utilizan redes de enrutamiento tradicionales. Yuan2.0-M32 se entrenó desde cero utilizando 200 mil millones de tokens, con un coste computacional que representa solo el 9,25% del requerido por un modelo denso de igual tamaño de parámetros. El modelo demuestra competitividad en programación, matemáticas y diversas áreas profesionales, utilizando solo 3700 millones de parámetros activos (una pequeña parte de los 4000 millones de parámetros totales). El cálculo hacia delante por token es de solo 7,4 GFLOPS, 1/19 de lo requerido por Llama3-70B. Yuan2.0-M32 supera a Llama3-70B en los benchmarks MATH y ARC-Challenge, alcanzando una precisión del 55,9% y el 95,8%, respectivamente.
Yuan2.0-M32-hf-int8 Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44