A startup chinesa de inteligência artificial, DeepSeek, lançou silenciosamente o modelo de linguagem grande DeepSeek-V3-0324, causando impacto na indústria de IA. O modelo, com 641 GB, apareceu no repositório de recursos de IA Hugging Face. Este lançamento seguiu o estilo discreto, porém influente, da DeepSeek, sem grandes anúncios, apenas com um arquivo README vazio e os pesos do modelo.

Este modelo utiliza a licença MIT, podendo ser usado gratuitamente para fins comerciais e rodando em hardware de consumo — um Apple Mac Studio com chip M3 Ultra. O pesquisador de IA Awni Hannun revelou nas redes sociais que a versão quantizada de 4 bits do DeepSeek-V3-0324 roda a mais de 20 tokens por segundo em um chip M3 Ultra de 512 GB. Apesar do alto custo do Mac Studio, a capacidade de executar um modelo tão grande localmente quebra a dependência de data centers, característica de IAs de ponta.

DeepSeek

O DeepSeek-V3-0324 emprega uma arquitetura de especialista misto (MoE), ativando apenas cerca de 37 bilhões de parâmetros durante a execução de tarefas, em vez dos 685 bilhões totais, aumentando significativamente a eficiência. Ele também integra as tecnologias de Atenção Potencial Multi-Cabeça (MLA) e Predição Multi-Token (MTP). A MLA aprimora a compreensão de contexto do modelo em textos longos, enquanto a MTP permite que o modelo gere vários tokens de cada vez, aumentando a velocidade de saída em quase 80%. A versão quantizada de 4 bits reduz as necessidades de armazenamento para 352 GB, tornando possível sua execução em hardware de consumo de alta gama.

Testadores iniciais relataram melhorias significativas em relação à versão anterior. O pesquisador de IA Xeophon afirma que o modelo apresentou um salto enorme em todos os indicadores de teste, superando o Claude Sonnet 3.5 da Anthropic, tornando-se o melhor modelo não-de-inferência. Além disso, diferente do Sonnet, que requer assinatura, os pesos do DeepSeek-V3-0324 podem ser baixados e usados gratuitamente.

QQ20250325-085347.png

A estratégia de lançamento de código aberto da DeepSeek contrasta fortemente com as empresas de IA ocidentais. Empresas americanas como OpenAI e Anthropic impõem barreiras de pagamento para seus modelos, enquanto empresas chinesas de IA estão cada vez mais inclinadas a licenças de código aberto mais flexíveis. Essa estratégia acelerou o desenvolvimento do ecossistema de IA na China, com gigantes de tecnologia como Baidu, Alibaba e Tencent seguindo o exemplo, lançando seus próprios modelos de IA de código aberto. Diante das restrições de chips da Nvidia, as empresas chinesas transformaram suas desvantagens em vantagens competitivas, enfatizando a eficiência e a otimização.

O DeepSeek-V3-0324 provavelmente servirá de base para o próximo modelo de inferência DeepSeek-R2. Os modelos de inferência atuais exigem grande capacidade computacional. Se o DeepSeek-R2 apresentar bom desempenho, representará um desafio direto ao suposto GPT-5 da OpenAI.

Usuários e desenvolvedores que desejam experimentar o DeepSeek-V3-0324 podem baixar os pesos completos do modelo no Hugging Face, embora o arquivo seja grande e exija recursos significativos de armazenamento e computação. Alternativamente, podem usar serviços em nuvem, como a API gratuita e interface de bate-papo amigável oferecida pela OpenRouter; a própria interface de bate-papo da DeepSeek pode ter sido atualizada para suportar a nova versão. Os desenvolvedores também podem integrar o modelo por meio de provedores de serviços de inferência, como o Hyperbolic Labs.

É importante notar que o DeepSeek-V3-0324 apresenta uma mudança no estilo de comunicação, passando de um estilo de conversa semelhante ao humano para um estilo mais formal e técnico. Essa mudança visa atender a aplicações profissionais e técnicas, mas pode afetar sua atratividade em aplicações voltadas para o consumidor.

A estratégia de código aberto da DeepSeek está remodelando o cenário global da IA. Anteriormente, a IA chinesa tinha uma diferença de 1 a 2 anos em relação aos EUA, mas agora essa diferença foi reduzida significativamente para 3 a 6 meses, e em alguns setores, até mesmo ultrapassou. Assim como o sistema Android obteve domínio global por meio do código aberto, os modelos de IA de código aberto, com sua ampla aplicação e inovação coletiva de desenvolvedores, têm o potencial de se destacar na competição e impulsionar a aplicação mais ampla da tecnologia de IA.