Yuan2.0-M32-hf-int8

Modelo de lenguaje de expertos mixtos de alto rendimiento

Producto ComúnProgramaciónModelo de expertos mixtosEnrutador de atención
Yuan2.0-M32-hf-int8 es un modelo de lenguaje de expertos mixtos (MoE) con 32 expertos, de los cuales 2 están activos. Este modelo mejora la eficiencia de la selección de expertos mediante una nueva red de enrutamiento: el enrutador de atención, logrando una precisión un 3,8% superior a los modelos que utilizan redes de enrutamiento tradicionales. Yuan2.0-M32 se entrenó desde cero utilizando 200 mil millones de tokens, con un coste computacional que representa solo el 9,25% del requerido por un modelo denso de igual tamaño de parámetros. El modelo demuestra competitividad en programación, matemáticas y diversas áreas profesionales, utilizando solo 3700 millones de parámetros activos (una pequeña parte de los 4000 millones de parámetros totales). El cálculo hacia delante por token es de solo 7,4 GFLOPS, 1/19 de lo requerido por Llama3-70B. Yuan2.0-M32 supera a Llama3-70B en los benchmarks MATH y ARC-Challenge, alcanzando una precisión del 55,9% y el 95,8%, respectivamente.
Abrir sitio web

Yuan2.0-M32-hf-int8 Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Yuan2.0-M32-hf-int8 Tendencia de visitas

Yuan2.0-M32-hf-int8 Distribución geográfica de las visitas

Yuan2.0-M32-hf-int8 Fuentes de tráfico

Yuan2.0-M32-hf-int8 Alternativas