A Shenzhen Yuanxiang Information Technology Co., Ltd. anunciou recentemente o lançamento bem-sucedido do maior modelo de linguagem aberto de Mixture of Experts (MoE) da China - XVERSE-MoE-A36B. O lançamento deste modelo marca um grande avanço na área de IA na China, elevando a tecnologia de código aberto nacional a um nível internacional de ponta.

O modelo XVERSE-MoE-A36B possui 255 bilhões de parâmetros totais e 36 bilhões de parâmetros ativados. Seu desempenho é comparável ao de modelos com mais de 100 bilhões de parâmetros, representando um salto de desempenho significativo. O tempo de treinamento foi reduzido em 30%, o desempenho de inferência aumentou 100% e o custo por token foi drasticamente reduzido, tornando possível a implantação de baixo custo de aplicativos de IA.

微信截图_20240913110614.png

A série de modelos "pacote completo de alto desempenho" da Yuanxiang XVERSE foi totalmente aberta e está disponível gratuitamente para uso comercial sem restrições, oferecendo mais opções para muitas pequenas e médias empresas, pesquisadores e desenvolvedores. A arquitetura MoE, combinando vários modelos especialistas em áreas específicas, supera as limitações das leis de dimensionamento tradicionais, maximizando o desempenho do modelo enquanto aumenta seu tamanho e reduz os custos computacionais de treinamento e inferência.

Em várias avaliações oficiais, o desempenho do MoE da Yuanxiang superou significativamente vários modelos semelhantes, incluindo o modelo MoE chinês Skywork-MoE, o modelo MoE líder Mixtral-8x22B e o modelo MoE de código aberto Grok-1-A86B com 314 bilhões de parâmetros.

Download gratuito do modelo de linguagem

  • Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B

  • 魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

  • Github:https://github.com/xverse-ai/XVERSE-MoE-A36B

  • Inquérito:opensource@xverse.cn

  • Site oficial:chat.xverse.cn