Yuan2.0-M32
Modelo de lenguaje de atención de expertos híbridos de alto rendimiento
Producto ComúnProgramaciónExpertos MixtosEnrutamiento de Atención
Yuan2.0-M32 es un modelo de lenguaje de expertos mixtos (MoE) con 32 expertos, de los cuales 2 están activos. Se presenta una nueva red de enrutamiento: enrutamiento de atención, para una selección de expertos más eficiente, mejorando la precisión en un 3.8%. Este modelo se entrenó desde cero utilizando 2000B tokens, con un coste computacional de entrenamiento que representa solo el 9.25% del requerido por un modelo denso de igual tamaño de parámetros. Demuestra una competitividad en codificación, matemáticas y diversas áreas profesionales, utilizando solo 3.7B parámetros activos, con un coste computacional de avance por token de solo 7.4 GFLOPS, apenas 1/19 de lo requerido por Llama3-70B. Supera a Llama3-70B en los benchmarks MATH y ARC-Challenge, alcanzando tasas de precisión del 55.9% y 95.8%, respectivamente.
Yuan2.0-M32 Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44