Em 26 de dezembro de 2024, a startup chinesa de inteligência artificial DeepSeek lançou seu mais recente modelo ultralarge, o DeepSeek-V3. Este modelo é conhecido por sua tecnologia de código aberto e por desafiar os principais fornecedores de IA.
O DeepSeek-V3 possui 671 bilhões de parâmetros e utiliza uma arquitetura de mistura de especialistas (mixture-of-experts architecture) para ativar parâmetros específicos, processando tarefas dadas com precisão e eficiência. De acordo com os testes de referência fornecidos pela DeepSeek, este novo modelo superou os principais modelos de código aberto, incluindo o Llama 3.1-405B da Meta, e apresentou desempenho semelhante aos modelos fechados da Anthropic e da OpenAI.
O lançamento do DeepSeek-V3 marca uma redução na diferença entre IA de código aberto e IA de código fechado. A DeepSeek, inicialmente um braço do fundo de hedge quantitativo chinês High-Flyer Capital Management, espera que esses desenvolvimentos pavimentem o caminho para a inteligência artificial geral (AGI), onde os modelos poderão entender ou aprender qualquer tarefa intelectual que um humano possa executar.
As principais características do DeepSeek-V3 incluem:
Assim como seu antecessor, o DeepSeek-V2, o novo modelo é baseado na arquitetura básica de atenção latente multi-cabeça (MLA) e DeepSeekMoE, garantindo treinamento e inferência eficientes.
A empresa também lançou duas inovações: uma estratégia auxiliar de balanceamento de carga sem perdas e a previsão multi-token (MTP), que permite que o modelo preveja vários tokens futuros simultaneamente, melhorando a eficiência do treinamento e tornando a execução do modelo três vezes mais rápida, gerando 60 tokens por segundo.
Na fase de pré-treinamento, o DeepSeek-V3 treinou 14,8 trilhões de tokens de alta qualidade e diversos, e passou por duas fases de extensão do comprimento do contexto. Finalmente, foi realizado um ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) pós-treinamento para alinhar o modelo às preferências humanas e liberar ainda mais seu potencial.
Durante a fase de treinamento, a DeepSeek utilizou várias otimizações de hardware e algoritmos, incluindo um framework de treinamento de precisão mista FP8 e o algoritmo DualPipe para paralelismo de pipeline, reduzindo os custos de treinamento. O processo de treinamento completo do DeepSeek-V3 foi concluído em 2.788.000 horas de GPU H800 ou aproximadamente US$ 5,57 milhões, muito menos do que os centenas de milhões de dólares normalmente usados para pré-treinar grandes modelos de linguagem.
O DeepSeek-V3 tornou-se um dos modelos de código aberto mais poderosos do mercado. Vários testes de referência realizados pela empresa mostraram que ele superou o GPT-4o de código fechado na maioria dos benchmarks, exceto no SimpleQA e FRAMES focados em inglês, onde o modelo OpenAI obteve pontuações de 38,2 e 80,5, respectivamente (o DeepSeek-V3 obteve pontuações de 24,9 e 73,3). O DeepSeek-V3 teve um desempenho particularmente notável em benchmarks de chinês e matemática, obtendo uma pontuação de 90,2 no teste Math-500, seguido pelo Qwen com 80 pontos.
Atualmente, o código do DeepSeek-V3 está disponível no GitHub sob a licença MIT, e o modelo é fornecido de acordo com a licença de modelo da empresa. As empresas também podem testar o novo modelo por meio do DeepSeek Chat (uma plataforma semelhante ao ChatGPT) e acessar a API para uso comercial. A DeepSeek oferecerá a API pelo mesmo preço do DeepSeek-V2 até 8 de fevereiro. Após essa data, será cobrada uma taxa de US$ 0,27 por milhão de tokens de entrada (US$ 0,07 por milhão de tokens para acertos de cache) e US$ 1,10 por milhão de tokens de saída.
Destaques:
🌟 Lançamento do DeepSeek-V3, com desempenho superior ao Llama e Qwen.
🔧 Utiliza 671 bilhões de parâmetros e arquitetura de mistura de especialistas, melhorando a eficiência.
🚀 Inovações incluem estratégia de balanceamento de carga sem perdas e previsão multi-token, aumentando a velocidade.
💼 Redução significativa dos custos de treinamento, impulsionando o desenvolvimento da IA de código aberto.