O aguardado Deepseek V3 finalmente foi lançado como código aberto! Este novo modelo de IA alcançou um grande avanço na capacidade de programação multilíngue, superando até mesmo concorrentes como Claude 3.5 e Sonnet V2 na avaliação de programação multilíngue da aider, chamando a atenção da indústria.

Segundo informações, o Deepseek V3 apresentou um salto qualitativo de desempenho em comparação com versões anteriores. O Deepseek V2.5 atingiu apenas 17% de sucesso na avaliação da aider, enquanto o V3 alcançou impressionantes 48%, demonstrando seu enorme progresso.

image.png

O Deepseek V3 utiliza uma arquitetura de especialista misto (MoE) com impressionantes 6850 bilhões de parâmetros. Esta arquitetura contém 256 especialistas e utiliza roteamento sigmóide, selecionando os 8 melhores especialistas (topk=8) a cada vez para realizar os cálculos. Este design permite que o modelo processe tarefas complexas de forma mais eficiente e melhore o desempenho.

O lançamento do código aberto do Deepseek V3, sem dúvida, injetará nova vitalidade na comunidade de IA. Sua poderosa capacidade de programação tem o potencial de desempenhar um papel importante no desenvolvimento de software, automação e outros campos, impulsionando a atualização inteligente em vários setores.

Endereço: https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main