Shenzhen Yuanxiang Information Technology Co., Ltd. anunció recientemente el lanzamiento exitoso de XVERSE-MoE-A36B, el mayor modelo de lenguaje abierto de Mixture of Experts (MoE) de China. Este lanzamiento representa un gran avance en el campo de la IA en China, elevando la tecnología de código abierto nacional a un nivel líder internacional.
XVERSE-MoE-A36B cuenta con 255 mil millones de parámetros totales y 36 mil millones de parámetros activados. Su rendimiento es comparable al de modelos con más de 100 mil millones de parámetros, logrando un salto cualitativo en el rendimiento. El tiempo de entrenamiento se redujo en un 30%, el rendimiento de inferencia aumentó en un 100% y se redujo significativamente el costo por token, lo que permite la implementación de aplicaciones de IA a bajo costo.
La serie de modelos "paquete completo de alto rendimiento" de Yuanxiang XVERSE ya está disponible de código abierto y es de uso comercial gratuito e incondicional. Esto ofrece más oportunidades a numerosas pequeñas y medianas empresas, investigadores y desarrolladores. La arquitectura MoE, mediante la combinación de múltiples modelos expertos en áreas específicas, supera las limitaciones de las leyes de escalamiento tradicionales, maximizando el rendimiento del modelo al aumentar su tamaño y reduciendo los costos computacionales de entrenamiento e inferencia.
En varias evaluaciones autorizadas, el rendimiento de MoE de Yuanxiang superó significativamente a varios modelos similares, incluyendo el modelo MoE nacional Skywork-MoE, el modelo MoE líder Mixtral-8x22B y el modelo MoE de código abierto Grok-1-A86B con 314 mil millones de parámetros.
Descarga gratuita del modelo de lenguaje grande
Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github:https://github.com/xverse-ai/XVERSE-MoE-A36B
Consultas:opensource@xverse.cn
Sitio web:chat.xverse.cn