La empresa china de inteligencia artificial DeepSeek lanzó silenciosamente el modelo de lenguaje grande DeepSeek-V3-0324, causando un gran impacto en la industria. Este modelo, con un tamaño de 641 GB, apareció en el repositorio de IA Hugging Face. Siguiendo su estilo discreto pero influyente, DeepSeek no realizó una gran campaña publicitaria, solo proporcionó un archivo README vacío y los pesos del modelo.
Este modelo utiliza la licencia MIT, lo que permite su uso comercial gratuito y su ejecución en hardware de consumo, como una Mac Studio de Apple con chip M3 Ultra. El investigador de IA Awni Hannun reveló en redes sociales que la versión cuantificada a 4 bits de DeepSeek-V3-0324 funciona a más de 20 tokens por segundo en un chip M3 Ultra de 512 GB. A pesar del alto precio de la Mac Studio, la capacidad de ejecutar un modelo de este tamaño localmente rompe con la dependencia de los centros de datos que tenían los modelos de IA de vanguardia.
DeepSeek-V3-0324 emplea una arquitectura de experto mixto (MoE), activando solo alrededor de 37 mil millones de parámetros durante la ejecución de tareas, en lugar de los 685 mil millones totales, lo que aumenta considerablemente la eficiencia. Además, integra las tecnologías de atención potencial multi-cabeza (MLA) y predicción multi-token (MTP). MLA mejora la comprensión del contexto en textos largos, mientras que MTP permite que el modelo genere múltiples tokens a la vez, aumentando la velocidad de salida en casi un 80%. La versión cuantificada a 4 bits reduce los requisitos de almacenamiento a 352 GB, haciendo posible su ejecución en hardware de consumo de gama alta.
Los primeros usuarios reportan mejoras significativas con respecto a la versión anterior. El investigador de IA Xeophon afirma que el modelo ha superado a Claude Sonnet 3.5 de Anthropic en todos los indicadores de prueba, convirtiéndose en el mejor modelo no de inferencia. A diferencia de Sonnet, que requiere suscripción, los pesos de DeepSeek-V3-0324 se pueden descargar y utilizar gratuitamente.
La estrategia de código abierto de DeepSeek contrasta con la de las empresas de IA occidentales. Empresas estadounidenses como OpenAI y Anthropic establecen barreras de pago para sus modelos, mientras que las empresas chinas de IA se inclinan cada vez más por licencias de código abierto más permisivas. Esta estrategia acelera el desarrollo del ecosistema de IA en China, con gigantes tecnológicos como Baidu, Alibaba y Tencent siguiendo la tendencia y lanzando sus propios modelos de IA de código abierto. Ante las restricciones de chips Nvidia, las empresas chinas convierten sus desventajas en ventajas competitivas al priorizar la eficiencia y la optimización.
DeepSeek-V3-0324 probablemente sea la base del próximo modelo de inferencia DeepSeek-R2. Los modelos de inferencia actuales tienen una gran demanda computacional; si DeepSeek-R2 ofrece un buen rendimiento, podría desafiar directamente al rumoreado GPT-5 de OpenAI.
Los usuarios y desarrolladores que deseen probar DeepSeek-V3-0324 pueden descargar los pesos completos del modelo desde Hugging Face, aunque el archivo es grande y requiere importantes recursos de almacenamiento y computación. También pueden optar por servicios en la nube, como OpenRouter, que ofrece acceso gratuito a través de una API y una interfaz de chat amigable; la propia interfaz de chat de DeepSeek puede haberse actualizado para soportar la nueva versión. Los desarrolladores también pueden integrar el modelo a través de proveedores de servicios de inferencia como Hyperbolic Labs.
Cabe destacar que DeepSeek-V3-0324 ha cambiado su estilo de comunicación, pasando de un estilo conversacional similar al humano a un estilo más formal y técnico. Este cambio está orientado a aplicaciones profesionales y técnicas, pero podría afectar su atractivo en aplicaciones para consumidores.
La estrategia de código abierto de DeepSeek está remodelando el panorama mundial de la IA. Anteriormente, China tenía una diferencia de 1 a 2 años con respecto a Estados Unidos en IA; ahora, la brecha se ha reducido significativamente a 3-6 meses, e incluso se ha superado en algunos ámbitos. Al igual que Android obtuvo el dominio mundial a través del código abierto, los modelos de IA de código abierto, gracias a su amplia adopción y a la innovación colectiva de los desarrolladores, tienen el potencial de destacar en la competencia e impulsar una adopción más generalizada de la tecnología de IA.