QuantSpace lanza DeepSeek-V3: Rendimiento comparable a GPT-4 con un coste de entrenamiento revolucionariamente bajo

El 26 de diciembre, Huanfang Quantization lanzó su nuevo modelo de lenguaje grande, DeepSeek-V3, que demuestra un asombroso avance tecnológico. Este modelo, que utiliza la arquitectura MoE (Mixture of Experts), no solo iguala en rendimiento a los modelos propietarios de primer nivel, sino que también ha llamado la atención de la industria por su bajo costo y alta eficiencia.

En cuanto a los parámetros centrales, DeepSeek-V3 cuenta con 671 mil millones de parámetros, de los cuales 37 mil millones son parámetros de activación, y se entrenó con un conjunto de datos de 14,8 billones de tokens. En comparación con su predecesor, el nuevo modelo tiene una velocidad de generación tres veces mayor, procesando 60 tokens por segundo, lo que mejora significativamente la eficiencia de las aplicaciones reales.

En las evaluaciones de rendimiento, DeepSeek-V3 ha demostrado una capacidad excepcional. No solo supera a modelos de código abierto conocidos como Qwen2.5-72B y Llama-3.1-405B, sino que también se equipara a GPT-4 y Claude-3.5-Sonnet en varias pruebas. Destaca especialmente su rendimiento en pruebas de matemáticas, superando a todos los modelos de código abierto y propietarios existentes.

Lo más notable es la ventaja de bajo costo de DeepSeek-V3. Según la publicación de su artículo científico, el costo total de entrenamiento del modelo es de solo 5,576 millones de dólares, calculando a 2 dólares por hora de GPU. Este avance se debe a la optimización sinérgica de algoritmos, marco y hardware. El cofundador de OpenAI, Karpathy, lo elogió mucho, señalando que DeepSeek-V3 alcanzó un rendimiento superior a Llama3 con solo 2,8 millones de horas de GPU, lo que representa una mejora de la eficiencia computacional de aproximadamente 11 veces.

En cuanto a la comercialización, si bien el precio del servicio API de DeepSeek-V3 ha aumentado con respecto a la generación anterior, mantiene una alta relación calidad-precio. El nuevo precio es de 0,5 a 2 yuanes por millón de tokens de entrada y 8 yuanes por tokens de salida, con un costo total aproximado de 10 yuanes chinos. En comparación, el precio de un servicio equivalente de GPT-4 es de aproximadamente 140 yuanes chinos, una diferencia de precio significativa.

Como un modelo de lenguaje grande completamente de código abierto, el lanzamiento de DeepSeek-V3 no solo demuestra el progreso de la tecnología de IA china, sino que también proporciona a los desarrolladores y empresas una solución de IA de alto rendimiento y bajo costo.

Noticias de IA

QuantSpace lanza DeepSeek-V3: Rendimiento comparable a GPT-4 con un coste de entrenamiento revolucionariamente bajo

AIbase基地

Noticias de IA relacionadas recomendadas

¡Deepseek V3 es de código abierto! Capacidad de programación multilingüe mejorada, superando a Claude 3.5 Sonnet V2