Recentemente, o desempenho excepcional do modelo chinês DeepSeek V3 na arena de IA chamou a atenção da indústria. Como o único modelo de código aberto a entrar no top 10, ele não apenas superou o o1-mini, mas também superou o Claude3.5Sonnet em várias áreas, incluindo programação e matemática. Para verificar suas capacidades reais, vários testes comparativos foram realizados.

image.png

Nos testes de compreensão básica, os dois modelos mostraram características diferentes. Diante da charada chinesa "A mãe de Xiaoming tem três filhos", o DeepSeek V3 teve um desempenho excelente, respondendo corretamente e realizando uma autoverificação. No entanto, em um trocadilho em inglês "April Fool's Day", mostrou-se insuficiente, falhando em compreender a sutileza da linguagem, enquanto o Claude3.5Sonnet respondeu com facilidade.

image.png

Os testes de raciocínio lógico também revelaram resultados interessantes. Ao enfrentar a armadilha lógica clássica do "弱智吧" (ruòzhì ba - algo como "fórum de pessoas com deficiência intelectual"), ambos os modelos cometeram erros de julgamento. No entanto, em questões do tipo "maldição reversa", ambos demonstraram excelente capacidade de raciocínio, identificando com sucesso a relação entre Tom Cruise e sua mãe.

image.png

Na competição de problemas de matemática do exame de admissão para pós-graduação, o DeepSeek V3 demonstrou uma capacidade matemática mais forte. Ele não apenas conseguiu analisar detalhadamente a aplicação da integral de superfície e do teorema de Gauss, mas também chegou à resposta correta. Em comparação, o Claude3.5Sonnet, embora com raciocínio claro, cometeu um erro no cálculo final.

image.png

Na comparação de habilidades de programação, o DeepSeek V3 superou seu oponente no teste de criação de sites. Este resultado confirma seu excelente desempenho na classificação da arena.

Vale mencionar que, com a entrada do o1 em sua versão completa, a configuração da arena de IA mudou novamente. O o1 alcançou o primeiro lugar com vantagem absoluta, conquistando quase todas as primeiras colocações em todos os itens, exceto na escrita criativa.

image.png

Esta série de testes demonstra que os grandes modelos chineses de IA estão rapidamente se aproximando do nível internacional de ponta. O desempenho do DeepSeek V3 prova que, em áreas específicas, ele já possui a capacidade de competir com os modelos de ponta, injetando nova confiança no desenvolvimento da tecnologia de IA chinesa.