Superando los límites de la IA de código abierto: DeepSeek V3 supera a Llama 3.1 con 14,8 billones de tokens de datos de entrenamiento

La empresa china de inteligencia artificial DeepSeek ha lanzado recientemente DeepSeek V3, un modelo de lenguaje grande de código abierto que representa un hito importante. Este modelo, con 6710 mil millones de parámetros, no solo supera en tamaño a Llama 3.1 de Meta, sino que también supera en rendimiento a modelos propietarios líderes como GPT-4 en varias pruebas de referencia.

DeepSeek V3 destaca por su potente rendimiento y su eficiente proceso de desarrollo. El modelo ha demostrado un excelente desempeño en las competiciones de la plataforma de programación Codeforces y ha liderado las pruebas Aider Polyglot de integración de código. Su entrenamiento se realizó utilizando un enorme conjunto de datos de 14,8 billones de tokens, alcanzando un tamaño de parámetros 1,6 veces mayor que Llama 3.1.

Robot de IA, Inteligencia Artificial (2)

Aún más llamativo es que DeepSeek solo necesitó dos meses y 5,5 millones de dólares para entrenar el modelo, una cifra significativamente menor que la inversión en productos similares.

Detrás de DeepSeek se encuentra High-Flyer Capital Management, un fondo de cobertura cuantitativo chino. El fondo invirtió en la construcción de un clúster de servidores con 10.000 GPU Nvidia A100, con un valor aproximado de 138 millones de dólares. Liang Wenfeng, fundador de High-Flyer, afirmó que la IA de código abierto acabará rompiendo el monopolio de los modelos cerrados actuales.

DeepSeek V3 se publica bajo una licencia permisiva, permitiendo a los desarrolladores descargarlo, modificarlo y utilizarlo en una variedad de aplicaciones, incluyendo usos comerciales. Aunque ejecutar la versión completa aún requiere un potente soporte de hardware, el lanzamiento de este modelo de código abierto marca un paso importante hacia la innovación abierta en el campo de la IA.

Noticias de IA

Superando los límites de la IA de código abierto: DeepSeek V3 supera a Llama 3.1 con 14,8 billones de tokens de datos de entrenamiento

AIbase基地

Noticias de IA relacionadas recomendadas

¡En solo cuatro semanas! Foxconn lanza FoxBrain, su modelo de lenguaje grande en chino

Plataforma Nacional de Internet de Supercomputación se integra con el modelo de lenguaje grande Qwen de Alibaba: API QwQ-32B disponible

Babel, el modelo de lenguaje grande de código abierto de Alibaba, admite 25 idiomas y empodera al 90% de la población mundial

Zhipu AI completa una ronda de financiación de más de 1000 millones de yuanes y planea la publicación de código abierto de un nuevo modelo de lenguaje grande