¡El esperado Deepseek V3 finalmente es de código abierto! Este nuevo modelo de IA ha logrado un gran avance en la capacidad de programación multilingüe. Su rendimiento en la evaluación de programación multilingüe de aider incluso supera a competidores como Claude 3.5 y Sonnet V2, atrayendo una gran atención de la industria.

Según se informa, Deepseek V3 ha experimentado un salto cualitativo en el rendimiento en comparación con las versiones anteriores. La tasa de éxito de Deepseek V2.5 en la evaluación de aider fue solo del 17%, mientras que la de V3 se ha incrementado al 48%, lo que demuestra un progreso significativo.

image.png

Deepseek V3 utiliza una arquitectura de experto mixto (MoE) con hasta 6850 mil millones de parámetros. Esta arquitectura incluye 256 expertos y utiliza un método de enrutamiento sigmoide, seleccionando los 8 mejores expertos (topk=8) para cada cálculo. Este diseño permite que el modelo procese tareas complejas de manera más eficiente y mejore el rendimiento.

La publicación de código abierto de Deepseek V3 sin duda aportará nueva vitalidad a la comunidad de IA. Su potente capacidad de programación podría desempeñar un papel importante en el desarrollo de software, la automatización y otros campos, impulsando la actualización inteligente de diversas industrias.

Dirección: https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main