Desafie Novos Limites na IA Open Source: DeepSeek V3 Supera o Llama 3.1 com 14,8 Trilhões de Tokens de Dados de Treinamento

AIbase基地

Publicado emNotícias e Informações de IA · 3 minutos de leitura · Dec 27, 2024

298

A empresa chinesa de inteligência artificial DeepSeek lançou recentemente um modelo de linguagem grande de código aberto inovador, o DeepSeek V3. Com 671 bilhões de parâmetros, este modelo não apenas supera o Llama 3.1 da Meta em escala, mas também apresenta desempenho superior a modelos proprietários populares, incluindo o GPT-4, em vários testes de referência.

O DeepSeek V3 se destaca por seu desempenho poderoso e processo de desenvolvimento eficiente. O modelo se mostrou excepcional em competições de programação no Codeforces e superou seus concorrentes no teste Aider Polyglot, que avalia a capacidade de integração de código. O treinamento do modelo utilizou um enorme conjunto de dados de 14,8 trilhões de tokens, alcançando uma escala de parâmetros 1,6 vezes maior que a do Llama 3.1.

Robô de IA Inteligência Artificial (2)

Ainda mais impressionante é que a DeepSeek levou apenas dois meses e US$ 5,5 milhões para treinar o modelo, um custo significativamente menor do que o investimento em produtos semelhantes.

Por trás da DeepSeek está o fundo de hedge quantitativo chinês High-Flyer Capital Management. O fundo investiu na construção de um cluster de servidores com 10.000 GPUs Nvidia A100, com um valor estimado de US$ 138 milhões. Liang Wenfeng, fundador da High-Flyer, afirmou que a IA de código aberto acabará quebrando o monopólio dos modelos fechados atuais.

O DeepSeek V3 é lançado sob uma licença permissiva, permitindo que desenvolvedores baixem, modifiquem e o utilizem em uma variedade de aplicações, incluindo fins comerciais. Embora a execução da versão completa ainda exija suporte de hardware robusto, o lançamento deste modelo de código aberto marca um passo importante para a inovação aberta na área de IA.

CSN Steel integra com sucesso o modelo de linguagem grande DeepSeek-R1, impulsionando a transformação digital

A CSN Steel deu um passo importante em sua jornada de transformação digital, anunciando recentemente em sua plataforma de interação a integração bem-sucedida do modelo de linguagem grande DeepSeek-R1. A empresa afirmou que, no futuro, se dedicará a promover a profunda integração entre tecnologia digital e economia real, usando isso como base para reformas abrangentes, buscando acelerar a construção de ativos de dados e explorar o valor potencial dos dados. Os esforços da CSN Steel para promover a manutenção inteligente representam uma estratégia crucial em um mercado competitivo. Com a integração do modelo de linguagem grande DeepSeek-R1, o 'Mensageiro CSN Steel'...

Ultrapassando o DeepSeek-R1! O modelo de linguagem grande Wanxiang da Alibaba assume a liderança no ranking global de código aberto

De acordo com o ranking mais recente divulgado pela comunidade de código aberto Hugging Face, o modelo de linguagem grande Wanxiang, lançado pela Alibaba, ultrapassou o DeepSeek-R1 apenas seis dias após seu lançamento em código aberto, assumindo a liderança em duas importantes listas de classificação: ranking de modelos populares e ranking de espaço de modelos. Essa conquista não apenas demonstra o desempenho técnico excepcional do modelo de linguagem grande Wanxiang, mas também reflete seu amplo reconhecimento e influência na comunidade global de código aberto.

Assistente de IA Xiao Ai da Xiaomi agora integrado com o modelo de linguagem grande DeepSeek R1

Os usuários agora podem ativar o DeepSeek-R1 dizendo "Ativar DeepSeek" para o Xiao Ai, para desfrutar de recursos como codificação, escrita e raciocínio lógico. Embora a Xiaomi ainda não tenha feito um anúncio oficial, a compatibilidade do Xiao Ai já foi confirmada em mais de 25 modelos de smartphones Xiaomi e Redmi.

Notícias e Informações de IA

Desafie Novos Limites na IA Open Source: DeepSeek V3 Supera o Llama 3.1 com 14,8 Trilhões de Tokens de Dados de Treinamento

AIbase基地

Notícias de IA Relacionadas Recomendadas

Em apenas quatro semanas! A Foxconn lança o modelo de linguagem grande em chinês FoxBrain

CSN Steel integra com sucesso o modelo de linguagem grande DeepSeek-R1, impulsionando a transformação digital

Ultrapassando o DeepSeek-R1! O modelo de linguagem grande Wanxiang da Alibaba assume a liderança no ranking global de código aberto

Assistente de IA Xiao Ai da Xiaomi agora integrado com o modelo de linguagem grande DeepSeek R1