El 24 de marzo de 2025, DeepSeek, un instituto de investigación de inteligencia artificial chino, lanzó sin previo aviso la última versión de su modelo de lenguaje insignia, DeepSeek-V3-0324, en la plataforma Hugging Face. Esta actualización "discreta pero potente" provocó un rápido debate en la comunidad tecnológica, con numerosos desarrolladores y entusiastas de la IA compartiendo sus primeras experiencias y expectativas. A continuación, se presenta un informe profundo basado en los comentarios de la comunidad tecnológica.
I. Lanzamiento misterioso: un coloso de 685 mil millones de parámetros que aparece silenciosamente
DeepSeek mantuvo su discreción habitual. Según informes de la comunidad tecnológica, el nuevo modelo se lanzó silenciosamente en Hugging Face en la madrugada del 24 de marzo, sin ningún anuncio oficial ni conferencia de prensa. La cantidad de parámetros de la nueva versión alcanzó los 685 mil millones, mientras que según el artículo técnico de DeepSeek-V3 publicado en diciembre pasado, la cantidad de parámetros era de 671 mil millones. Esta diferencia ha provocado especulaciones sobre posibles ajustes de arquitectura. Aunque la empresa aún no ha revelado los parámetros técnicos detallados, este "ataque sorpresa" ha sido suficiente para entusiasmar a la comunidad.
Varias fuentes confirmaron que DeepSeek solo notificó esta actualización a través de un mensaje de grupo, indicando que el modelo se había publicado en código abierto en Hugging Face para que todos lo descargaran gratuitamente. El informe también señala que las plataformas de terceros proporcionaron rápidamente soporte de API, lo que demuestra la rápida capacidad de respuesta de la comunidad al nuevo modelo.
II. Salto en el rendimiento: mejora significativa en las capacidades matemáticas y de programación
El principal punto destacado de esta actualización es la mejora significativa del rendimiento. Aunque la empresa lo considera una "actualización menor", las pruebas iniciales muestran un progreso notable en las capacidades matemáticas y de diseño de interfaces de usuario del modelo. Varios evaluadores tecnológicos informaron de una mejora significativa en la capacidad de programación del modelo, acercándose al nivel de Claude 3.5. Algunos evaluadores compartieron imágenes de ejemplo generadas por V3-0324, calificando los resultados preliminares como "bastante buenos".
Además, los comentarios iniciales sugieren que, además de las mejoras en las tareas técnicas, el nuevo modelo podría ofrecer una experiencia de conversación más humana. Sin embargo, dado que la empresa aún no ha publicado datos de pruebas comparativas, estas evaluaciones preliminares requieren una mayor verificación.
III. Nueva postura de código abierto: la entusiasta respuesta de la comunidad bajo la licencia MIT
A diferencia de las versiones anteriores, DeepSeek-V3-0324 adopta una licencia de código abierto MIT más flexible, un cambio ampliamente considerado como un desarrollo positivo. Los analistas tecnológicos señalan que, además del notable aumento de la capacidad de programación, el modelo también adopta una licencia de código abierto más abierta. El modelo ya está disponible en plataformas de código abierto, con 685 mil millones de parámetros, lo que refleja la actitud cada vez más abierta de DeepSeek hacia la comunidad de código abierto.
La entusiasta respuesta en la sección de comentarios de Hugging Face confirma esta observación. La doble ventaja del código abierto y la mejora del rendimiento ha convertido a DeepSeek-V3-0324 en un posible agente de cambio en la industria, con el potencial de desafiar la posición de modelos de código cerrado como OpenAI GPT-4 o Anthropic Claude 3.5 Sonnet.
IV. Experiencia del usuario: transición fluida desde el sitio web a la API
DeepSeek también ha optimizado la experiencia del usuario en esta actualización. Según informes tecnológicos, los usuarios solo necesitan desactivar la función "pensamiento profundo" en el sitio web para usar directamente la versión V3-0324, mientras que la interfaz y el método de uso de la API permanecen sin cambios. Este diseño de transición fluida ha reducido el umbral de uso y ha recibido elogios de la comunidad.
El informe también señala que las plataformas de terceros ya han proporcionado acceso a la API, lo que demuestra la rápida capacidad de adaptación del ecosistema.
V. Perspectivas futuras: ¿Un preludio de R2?
Aunque se ha etiquetado como una "actualización menor", el impacto de esta actualización ha superado las expectativas. Muchos en la comunidad tecnológica especulan si esto allana el camino para el próximo lanzamiento de DeepSeek-R2. Anteriormente, el modelo R1 de DeepSeek compitió con el modelo o1 de OpenAI en tareas de razonamiento lógico y matemáticas, y el lanzamiento de V3-0324 se considera una acumulación de bases tecnológicas para la próxima generación de modelos de razonamiento. Aunque DeepSeek aún no ha confirmado la fecha de lanzamiento específica de R2, las expectativas de la comunidad están claramente aumentando.
VI. Resumen: un auge discreto pero poderoso
El lanzamiento de DeepSeek-V3-0324 continúa con el estilo habitual de la empresa: lanzamiento discreto, rendimiento excepcional. Desde la escala de 685 mil millones de parámetros, hasta la notable mejora en las capacidades matemáticas y de programación, y la estrategia de código abierto de la licencia MIT, este modelo sin duda ha inyectado una nueva vitalidad en el campo de la IA. Como describió un evaluador tecnológico: "Discreto en apariencia, pero poderoso como un tigre". Incluso antes de que se revelen completamente los detalles técnicos, los desarrolladores e investigadores ya se han lanzado a las pruebas con entusiasmo, intentando desentrañar todo el potencial de esta "bestia silenciosa".
A medida que se publiquen más resultados de las evaluaciones, si DeepSeek-V3-0324 realmente puede sacudir el panorama actual de la IA sigue siendo un punto focal de atención en las próximas semanas. Lo que sí es seguro es que DeepSeek está avanzando constantemente en la competencia mundial de IA a su manera.