Recientemente, el excelente desempeño del modelo nacional DeepSeek V3 en la arena de la IA ha llamado la atención de la industria. Como el único modelo de código abierto que entró en el top 10, no solo superó a o1-mini, sino que incluso superó a Claude3.5Sonnet en varias áreas, incluyendo programación y matemáticas. Para verificar sus capacidades reales, se llevaron a cabo una serie de pruebas comparativas.
En las pruebas de comprensión básica, ambos modelos mostraron características diferentes. Ante el acertijo chino "¿La madre de Xiaoming tiene tres hijos?", DeepSeek V3 respondió correctamente e incluso realizó una autoverificación. Sin embargo, en la prueba de juego de palabras en inglés "April Fool's Day", mostró ciertas deficiencias, sin comprender el ingenio lingüístico, mientras que Claude3.5Sonnet lo resolvió con facilidad.
Las pruebas de razonamiento lógico también revelaron resultados interesantes. Ambos modelos cometieron errores al enfrentarse a la clásica falacia lógica de "弱智吧" (ruòzhìba). Sin embargo, en problemas del tipo "maldición inversa", ambos mostraron una excelente capacidad de razonamiento, identificando correctamente la relación entre Tom Cruise y su madre.
En la competencia de problemas de matemáticas de ingreso a la universidad, DeepSeek V3 demostró una mayor capacidad matemática. No solo pudo analizar detalladamente la aplicación de la integral de superficie y el teorema de Gauss, sino que también obtuvo la respuesta correcta. En comparación, Claude3.5Sonnet, aunque con un razonamiento claro, tuvo un error en el cálculo final.
En la comparación de habilidades de programación, DeepSeek V3 superó a su oponente en la prueba de creación de sitios web. Este resultado confirma su excelente desempeño en la clasificación de la arena de la IA.
Cabe mencionar que, con la incorporación de la versión completa de o1, la situación en la arena de la IA ha cambiado nuevamente. o1 ha alcanzado el primer puesto con una ventaja absoluta, obteniendo casi todos los primeros lugares en las pruebas individuales, excepto en la escritura creativa.
Esta serie de pruebas demuestra que los modelos de IA de desarrollo nacional chino están alcanzando rápidamente el nivel internacional. El desempeño de DeepSeek V3 prueba que, en áreas específicas, ya tiene la capacidad de competir con los modelos de primer nivel, inyectando nueva confianza en el desarrollo de la tecnología de IA nacional.