Grupo Taobao e Ai Cheng Technology lançam framework de treinamento de modelo de linguagem grande Megatron-LLaMA de código aberto

机器之心

Publicado emNotícias e Informações de IA · 1 minutos de leitura · Sep 13, 2023

O grupo Taobao, em conjunto com a Ai Cheng Technology, lançou o framework de treinamento de modelos grandes Megatron-LLaMA, com o objetivo de melhorar o desempenho do treinamento de modelos de linguagem grandes, reduzir os custos de treinamento e manter a compatibilidade com a comunidade LLaMA. O framework consegue uma aceleração de 176% no treinamento com 32 placas, demonstrando alta tolerância a instabilidades de rede. O Megatron-LLaMA focará na seleção de configurações ótimas adaptativas, suporte a modificações na estrutura do modelo e soluções de treinamento de alto desempenho em diferentes ambientes de hardware.

Criador da Manus, Ji Yichao: Produtos Manus são desenvolvidos com base no modelo de linguagem grande Qwen da Alibaba

O produto Manus, um agente de IA lançado pela startup chinesa Monica, recentemente causou furor na plataforma X. Hoje, seu fundador, Ji Yichao, divulgou mais detalhes técnicos do produto nas redes sociais. De acordo com Ji Yichao, Manus é desenvolvido com base no modelo de linguagem grande Qwen da Alibaba e utiliza vários modelos de ajuste fino para alcançar suas funcionalidades exclusivas. Essa notícia não apenas gerou discussões na indústria sobre a origem da tecnologia da Manus, mas também aumentou o interesse da comunidade global de IA em seu potencial. Ji Yichao

CSN Steel integra com sucesso o modelo de linguagem grande DeepSeek-R1, impulsionando a transformação digital

A CSN Steel deu um passo importante em sua jornada de transformação digital, anunciando recentemente em sua plataforma de interação a integração bem-sucedida do modelo de linguagem grande DeepSeek-R1. A empresa afirmou que, no futuro, se dedicará a promover a profunda integração entre tecnologia digital e economia real, usando isso como base para reformas abrangentes, buscando acelerar a construção de ativos de dados e explorar o valor potencial dos dados. Os esforços da CSN Steel para promover a manutenção inteligente representam uma estratégia crucial em um mercado competitivo. Com a integração do modelo de linguagem grande DeepSeek-R1, o 'Mensageiro CSN Steel'...

Ultrapassando o DeepSeek-R1! O modelo de linguagem grande Wanxiang da Alibaba assume a liderança no ranking global de código aberto

De acordo com o ranking mais recente divulgado pela comunidade de código aberto Hugging Face, o modelo de linguagem grande Wanxiang, lançado pela Alibaba, ultrapassou o DeepSeek-R1 apenas seis dias após seu lançamento em código aberto, assumindo a liderança em duas importantes listas de classificação: ranking de modelos populares e ranking de espaço de modelos. Essa conquista não apenas demonstra o desempenho técnico excepcional do modelo de linguagem grande Wanxiang, mas também reflete seu amplo reconhecimento e influência na comunidade global de código aberto.

Notícias e Informações de IA

Grupo Taobao e Ai Cheng Technology lançam framework de treinamento de modelo de linguagem grande Megatron-LLaMA de código aberto

机器之心

Notícias de IA Relacionadas Recomendadas

Criador da Manus, Ji Yichao: Produtos Manus são desenvolvidos com base no modelo de linguagem grande Qwen da Alibaba

Em apenas quatro semanas! A Foxconn lança o modelo de linguagem grande em chinês FoxBrain

CSN Steel integra com sucesso o modelo de linguagem grande DeepSeek-R1, impulsionando a transformação digital

Ultrapassando o DeepSeek-R1! O modelo de linguagem grande Wanxiang da Alibaba assume a liderança no ranking global de código aberto