DeepSeek-V2-Chat
Um modelo de linguagem eficiente e econômico, com poderosas características de mistura de especialistas.
Produto ComumProgramaçãoModelo de LinguagemMistura de Especialistas
DeepSeek-V2 é um modelo de linguagem de mistura de especialistas (MoE) com 236 bilhões de parâmetros, que ativa 21 bilhões de parâmetros por token, mantendo o treinamento econômico e a inferência eficiente. Em comparação com seu antecessor, DeepSeek 67B, o DeepSeek-V2 apresenta desempenho superior, com uma redução de 42,5% no custo de treinamento, 93,3% na memória cache KV e um aumento de 5,76 vezes na taxa de produção máxima. O modelo foi pré-treinado em um corpus de alta qualidade de 8,1 trilhões de tokens e otimizado ainda mais por meio de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL), apresentando excelente desempenho em benchmarks padrão e avaliações de geração aberta.
DeepSeek-V2-Chat Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44