A Shenzhen Yuanxiang Information Technology Co., Ltd. anunciou recentemente o lançamento bem-sucedido do maior modelo de linguagem aberto de Mixture of Experts (MoE) da China - XVERSE-MoE-A36B. O lançamento deste modelo marca um grande avanço na área de IA na China, elevando a tecnologia de código aberto nacional a um nível internacional de ponta.
O modelo XVERSE-MoE-A36B possui 255 bilhões de parâmetros totais e 36 bilhões de parâmetros ativados. Seu desempenho é comparável ao de modelos com mais de 100 bilhões de parâmetros, representando um salto de desempenho significativo. O tempo de treinamento foi reduzido em 30%, o desempenho de inferência aumentou 100% e o custo por token foi drasticamente reduzido, tornando possível a implantação de baixo custo de aplicativos de IA.
A série de modelos "pacote completo de alto desempenho" da Yuanxiang XVERSE foi totalmente aberta e está disponível gratuitamente para uso comercial sem restrições, oferecendo mais opções para muitas pequenas e médias empresas, pesquisadores e desenvolvedores. A arquitetura MoE, combinando vários modelos especialistas em áreas específicas, supera as limitações das leis de dimensionamento tradicionais, maximizando o desempenho do modelo enquanto aumenta seu tamanho e reduz os custos computacionais de treinamento e inferência.
Em várias avaliações oficiais, o desempenho do MoE da Yuanxiang superou significativamente vários modelos semelhantes, incluindo o modelo MoE chinês Skywork-MoE, o modelo MoE líder Mixtral-8x22B e o modelo MoE de código aberto Grok-1-A86B com 314 bilhões de parâmetros.
Download gratuito do modelo de linguagem
Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github:https://github.com/xverse-ai/XVERSE-MoE-A36B
Inquérito:opensource@xverse.cn
Site oficial:chat.xverse.cn