Récemment, les performances exceptionnelles du modèle chinois DeepSeek V3 sur l'arène AI ont attiré l'attention du secteur. Seul modèle open source à figurer parmi les dix premiers, il a non seulement surpassé o1-mini, mais a même dépassé Claude3.5Sonnet dans plusieurs domaines, notamment la programmation et les mathématiques. De nombreuses comparaisons ont été réalisées pour vérifier ses capacités réelles.
Lors des tests de compréhension de base, les deux modèles ont montré des caractéristiques différentes. Face à l'énigme chinoise « La mère de Xiaoming a trois enfants », DeepSeek V3 a excellé, répondant correctement et procédant même à une auto-vérification. Cependant, il a montré des lacunes face à l'expression anglaise ambiguë « April Fool's Day », ne comprenant pas le jeu de mots, contrairement à Claude3.5Sonnet qui a facilement répondu.
Les tests de raisonnement logique ont également révélé des résultats intéressants. Face aux pièges logiques classiques de « Weak智吧 », les deux modèles ont commis des erreurs de jugement. Cependant, sur les problèmes de type « malédiction inversée », les deux ont démontré d'excellentes capacités de raisonnement, identifiant correctement la relation entre Tom Cruise et sa mère.
Lors de l'épreuve de mathématiques du concours d'entrée à l'université, DeepSeek V3 a démontré des compétences mathématiques supérieures. Il a non seulement pu analyser en détail l'application de l'intégrale de surface et du théorème de Gauss, mais a également trouvé la bonne réponse. En comparaison, Claude3.5Sonnet, bien que sa démarche soit claire, a commis une erreur de calcul.
En matière de programmation, DeepSeek V3 a surclassé son adversaire lors du test de création de site web. Ce résultat confirme ses excellentes performances au classement de l'arène.
Il est à noter que l'arrivée de la version complète d'o1 a bouleversé la donne de l'arène AI. o1 a pris la tête du classement avec une avance considérable, remportant presque toutes les épreuves individuelles, à l'exception de l'écriture créative.
Cette série de tests montre que les grands modèles chinois développés en interne rattrapent rapidement le niveau international. Les performances de DeepSeek V3 prouvent que, dans certains domaines, il possède la capacité de rivaliser avec les modèles les plus performants, insufflant une nouvelle confiance au développement de l'IA chinoise.