La empresa china de inteligencia artificial DeepSeek ha lanzado recientemente DeepSeek V3, un modelo de lenguaje grande de código abierto que representa un hito importante. Este modelo, con 6710 mil millones de parámetros, no solo supera en tamaño a Llama 3.1 de Meta, sino que también supera en rendimiento a modelos propietarios líderes como GPT-4 en varias pruebas de referencia.
DeepSeek V3 destaca por su potente rendimiento y su eficiente proceso de desarrollo. El modelo ha demostrado un excelente desempeño en las competiciones de la plataforma de programación Codeforces y ha liderado las pruebas Aider Polyglot de integración de código. Su entrenamiento se realizó utilizando un enorme conjunto de datos de 14,8 billones de tokens, alcanzando un tamaño de parámetros 1,6 veces mayor que Llama 3.1.
Aún más llamativo es que DeepSeek solo necesitó dos meses y 5,5 millones de dólares para entrenar el modelo, una cifra significativamente menor que la inversión en productos similares.
Detrás de DeepSeek se encuentra High-Flyer Capital Management, un fondo de cobertura cuantitativo chino. El fondo invirtió en la construcción de un clúster de servidores con 10.000 GPU Nvidia A100, con un valor aproximado de 138 millones de dólares. Liang Wenfeng, fundador de High-Flyer, afirmó que la IA de código abierto acabará rompiendo el monopolio de los modelos cerrados actuales.
DeepSeek V3 se publica bajo una licencia permisiva, permitiendo a los desarrolladores descargarlo, modificarlo y utilizarlo en una variedad de aplicaciones, incluyendo usos comerciales. Aunque ejecutar la versión completa aún requiere un potente soporte de hardware, el lanzamiento de este modelo de código abierto marca un paso importante hacia la innovación abierta en el campo de la IA.