A empresa chinesa de inteligência artificial DeepSeek lançou recentemente um modelo de linguagem grande de código aberto inovador, o DeepSeek V3. Com 671 bilhões de parâmetros, este modelo não apenas supera o Llama 3.1 da Meta em escala, mas também apresenta desempenho superior a modelos proprietários populares, incluindo o GPT-4, em vários testes de referência.

O DeepSeek V3 se destaca por seu desempenho poderoso e processo de desenvolvimento eficiente. O modelo se mostrou excepcional em competições de programação no Codeforces e superou seus concorrentes no teste Aider Polyglot, que avalia a capacidade de integração de código. O treinamento do modelo utilizou um enorme conjunto de dados de 14,8 trilhões de tokens, alcançando uma escala de parâmetros 1,6 vezes maior que a do Llama 3.1.

Robô de IA Inteligência Artificial (2)

Ainda mais impressionante é que a DeepSeek levou apenas dois meses e US$ 5,5 milhões para treinar o modelo, um custo significativamente menor do que o investimento em produtos semelhantes.

Por trás da DeepSeek está o fundo de hedge quantitativo chinês High-Flyer Capital Management. O fundo investiu na construção de um cluster de servidores com 10.000 GPUs Nvidia A100, com um valor estimado de US$ 138 milhões. Liang Wenfeng, fundador da High-Flyer, afirmou que a IA de código aberto acabará quebrando o monopólio dos modelos fechados atuais.

O DeepSeek V3 é lançado sob uma licença permissiva, permitindo que desenvolvedores baixem, modifiquem e o utilizem em uma variedade de aplicações, incluindo fins comerciais. Embora a execução da versão completa ainda exija suporte de hardware robusto, o lançamento deste modelo de código aberto marca um passo importante para a inovação aberta na área de IA.