DeepSeek-V3

Un modelo de lenguaje Mixture-of-Experts con 671B parámetros.

Selección NacionalProductividadProcesamiento del Lenguaje NaturalAprendizaje Profundo
DeepSeek-V3 es un potente modelo de lenguaje Mixture-of-Experts (MoE) con un total de 671B parámetros, activando 37B parámetros por cada solicitud. Emplea la arquitectura Multi-head Latent Attention (MLA) y DeepSeekMoE, probadas con éxito en DeepSeek-V2. Además, DeepSeek-V3 implementa por primera vez una estrategia de balanceo de carga sin pérdida auxiliar y un objetivo de entrenamiento de predicción de múltiples tokens para lograr un rendimiento superior. DeepSeek-V3 se preentrenó en 14,8 billones de tokens de alta calidad, seguido de un ajuste fino supervisado y una fase de aprendizaje por refuerzo para aprovechar al máximo sus capacidades. Las evaluaciones integrales muestran que DeepSeek-V3 supera a otros modelos de código abierto y alcanza un rendimiento comparable al de los modelos propietarios líderes. A pesar de su excelente rendimiento, el entrenamiento completo de DeepSeek-V3 solo requirió 2.788M de horas de GPU H800, y el proceso de entrenamiento fue muy estable.
Abrir sitio web

DeepSeek-V3 Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

DeepSeek-V3 Tendencia de visitas

DeepSeek-V3 Distribución geográfica de las visitas

DeepSeek-V3 Fuentes de tráfico

DeepSeek-V3 Alternativas