¡Avance innovador en modelos lingüísticos nacionales! DeepSeek V3 desafía a Claude 3.5 Sonnet: registro completo de las pruebas

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Dec 31, 2024

830

Recientemente, el excelente desempeño del modelo nacional DeepSeek V3 en la arena de la IA ha llamado la atención de la industria. Como el único modelo de código abierto que entró en el top 10, no solo superó a o1-mini, sino que incluso superó a Claude3.5Sonnet en varias áreas, incluyendo programación y matemáticas. Para verificar sus capacidades reales, se llevaron a cabo una serie de pruebas comparativas.

En las pruebas de comprensión básica, ambos modelos mostraron características diferentes. Ante el acertijo chino "¿La madre de Xiaoming tiene tres hijos?", DeepSeek V3 respondió correctamente e incluso realizó una autoverificación. Sin embargo, en la prueba de juego de palabras en inglés "April Fool's Day", mostró ciertas deficiencias, sin comprender el ingenio lingüístico, mientras que Claude3.5Sonnet lo resolvió con facilidad.

Las pruebas de razonamiento lógico también revelaron resultados interesantes. Ambos modelos cometieron errores al enfrentarse a la clásica falacia lógica de "弱智吧" (ruòzhìba). Sin embargo, en problemas del tipo "maldición inversa", ambos mostraron una excelente capacidad de razonamiento, identificando correctamente la relación entre Tom Cruise y su madre.

En la competencia de problemas de matemáticas de ingreso a la universidad, DeepSeek V3 demostró una mayor capacidad matemática. No solo pudo analizar detalladamente la aplicación de la integral de superficie y el teorema de Gauss, sino que también obtuvo la respuesta correcta. En comparación, Claude3.5Sonnet, aunque con un razonamiento claro, tuvo un error en el cálculo final.

En la comparación de habilidades de programación, DeepSeek V3 superó a su oponente en la prueba de creación de sitios web. Este resultado confirma su excelente desempeño en la clasificación de la arena de la IA.

Cabe mencionar que, con la incorporación de la versión completa de o1, la situación en la arena de la IA ha cambiado nuevamente. o1 ha alcanzado el primer puesto con una ventaja absoluta, obteniendo casi todos los primeros lugares en las pruebas individuales, excepto en la escritura creativa.

Esta serie de pruebas demuestra que los modelos de IA de desarrollo nacional chino están alcanzando rápidamente el nivel internacional. El desempeño de DeepSeek V3 prueba que, en áreas específicas, ya tiene la capacidad de competir con los modelos de primer nivel, inyectando nueva confianza en el desarrollo de la tecnología de IA nacional.

Mistral, startup europea de IA, alcanza una valoración de 20.000 millones de dólares tras dos rondas de financiación en 6 meses

Mistral AI, fundada hace solo seis meses, ha completado dos rondas de financiación por 113 millones y 415 millones de dólares, elevando su valoración de 260 millones a 20.000 millones de dólares. Mistral AI ha lanzado el modelo abierto Mixtral 8x7B, con un rendimiento que se acerca al de GPT-4. Considerada la "OpenAI francesa", Mistral AI cuenta con el firme apoyo del presidente Macron. A través de la estrategia de código abierto y una posición diferenciadora, Mistral AI apunta a competir directamente con OpenAI.

Alibaba lanza un modelo de lenguaje grande de 720 mil millones de parámetros, posiblemente el mayor modelo abierto de China

El CEO de Alibaba Group, Wu Yongming, anunció en la Conferencia Mundial de Internet 2023 que Alibaba lanzará un modelo de lenguaje grande de 720 mil millones de parámetros de código abierto. Este será el modelo de lenguaje grande de código abierto más grande de China en términos de parámetros. Este movimiento marca el liderazgo de Alibaba Cloud en el campo de los modelos de lenguaje grandes. Los modelos de lenguaje grandes de código abierto impulsarán el desarrollo y la aplicación de la tecnología de inteligencia artificial. Otras compañías también han lanzado sus propios modelos de lenguaje grandes de código abierto, y la competencia en tecnología de IA se está intensificando.

Zhaolian Consumo Financiero lanza "Zhaolian Zhilu", el primer modelo abierto de 13 mil millones de parámetros del sector de financiación al consumo

"Zhaolian Consumo Financiero ha lanzado "Zhaolian Zhilu", el primer modelo abierto de 13 mil millones de parámetros del sector de financiación al consumo, que ha recibido el reconocimiento de autoridades en el campo del conocimiento general. Este modelo se caracteriza por su alta precisión y conocimientos financieros especializados, capaz de satisfacer necesidades personalizadas, mejorar la eficiencia del trabajo y reducir costes. Se aplicará en áreas específicas como la gestión de riesgos, la generación de código y la mejora de las operaciones, y se seguirá explorando la tecnología de agentes inteligentes y la tecnología para el bien. El modelo abierto "Zhaolian Zhilu" de Zhaolian Consumo Financiero ha obtenido excelentes resultados en los rankings de referencia C-Eval y C..."

Noticias de IA

¡Avance innovador en modelos lingüísticos nacionales! DeepSeek V3 desafía a Claude 3.5 Sonnet: registro completo de las pruebas

AIbase基地

Noticias de IA relacionadas recomendadas

Mistral, startup europea de IA, alcanza una valoración de 20.000 millones de dólares tras dos rondas de financiación en 6 meses

Alibaba lanza un modelo de lenguaje grande de 720 mil millones de parámetros, posiblemente el mayor modelo abierto de China

Zhaolian Consumo Financiero lanza "Zhaolian Zhilu", el primer modelo abierto de 13 mil millones de parámetros del sector de financiación al consumo