Percée des grands modèles nationaux ! DeepSeek V3 défie Claude 3.5 Sonnet : compte rendu complet des tests

AIbase基地

Publié leActualités IA · 4 minutes de lecture · Dec 31, 2024

829

Récemment, les performances exceptionnelles du modèle chinois DeepSeek V3 sur l'arène AI ont attiré l'attention du secteur. Seul modèle open source à figurer parmi les dix premiers, il a non seulement surpassé o1-mini, mais a même dépassé Claude3.5Sonnet dans plusieurs domaines, notamment la programmation et les mathématiques. De nombreuses comparaisons ont été réalisées pour vérifier ses capacités réelles.

Lors des tests de compréhension de base, les deux modèles ont montré des caractéristiques différentes. Face à l'énigme chinoise « La mère de Xiaoming a trois enfants », DeepSeek V3 a excellé, répondant correctement et procédant même à une auto-vérification. Cependant, il a montré des lacunes face à l'expression anglaise ambiguë « April Fool's Day », ne comprenant pas le jeu de mots, contrairement à Claude3.5Sonnet qui a facilement répondu.

Les tests de raisonnement logique ont également révélé des résultats intéressants. Face aux pièges logiques classiques de « Weak智吧 », les deux modèles ont commis des erreurs de jugement. Cependant, sur les problèmes de type « malédiction inversée », les deux ont démontré d'excellentes capacités de raisonnement, identifiant correctement la relation entre Tom Cruise et sa mère.

Lors de l'épreuve de mathématiques du concours d'entrée à l'université, DeepSeek V3 a démontré des compétences mathématiques supérieures. Il a non seulement pu analyser en détail l'application de l'intégrale de surface et du théorème de Gauss, mais a également trouvé la bonne réponse. En comparaison, Claude3.5Sonnet, bien que sa démarche soit claire, a commis une erreur de calcul.

En matière de programmation, DeepSeek V3 a surclassé son adversaire lors du test de création de site web. Ce résultat confirme ses excellentes performances au classement de l'arène.

Il est à noter que l'arrivée de la version complète d'o1 a bouleversé la donne de l'arène AI. o1 a pris la tête du classement avec une avance considérable, remportant presque toutes les épreuves individuelles, à l'exception de l'écriture créative.

Cette série de tests montre que les grands modèles chinois développés en interne rattrapent rapidement le niveau international. Les performances de DeepSeek V3 prouvent que, dans certains domaines, il possède la capacité de rivaliser avec les modèles les plus performants, insufflant une nouvelle confiance au développement de l'IA chinoise.

CogView4 : le premier modèle open source de génération d'images à partir de texte capable de générer des caractères chinois

Beijing Zhihu Zhang Technology Co., Ltd. a annoncé le lancement de CogView4, le premier modèle open source de génération d'images à partir de texte capable de générer des caractères chinois. Ce modèle a obtenu le meilleur score global au benchmark DPG-Bench, devenant ainsi le modèle SOTA (State of the Art) des modèles open source de génération d'images. Il est distribué sous licence Apache 2.0, ce qui en fait le premier modèle de génération d'images à suivre cette licence.

Shenzhou Information intègre le grand modèle open source chinois DeepSeek

Shenzhou Information a récemment annoncé l'intégration du grand modèle open source chinois DeepSeek afin de moderniser son offre complète de solutions financières. Cette initiative marque non seulement une évolution technologique, mais offre également aux clients bancaires un déploiement en environnement privé à faible coût et sécurisé. Grâce à l'intégration de DeepSeek, les neuf gammes de produits et plus de 30 solutions métier clés de Shenzhou Information ont bénéficié d'une amélioration globale de l'intelligence artificielle, couvrant de nombreux domaines tels que l'exploitation de la clientèle de détail, les canaux numériques, l'open banking, les opérations de crédit, l'intelligence des données et les plateformes d'entreprise.

Google publie TimesFM 2.0, un modèle open source de prévision de séries temporelles, applicable aux ventes au détail et aux marchés boursiers

L'équipe de recherche Google a récemment lancé TimesFM (modèle de base temporel) 2.0, un modèle pré-entraîné spécialement conçu pour la prévision de séries temporelles. Ce modèle vise à améliorer la précision des prévisions de séries temporelles et à promouvoir le développement de l'intelligence artificielle grâce à l'open source et au partage scientifique. Le modèle TimesFM 2.0 possède de puissantes fonctionnalités, capable de gérer la prévision de séries temporelles univariées jusqu'à 2048 points de données, et prend en charge n'importe quelle durée de prévision. Il est important de noter que, bien que la longueur maximale du contexte d'entraînement du modèle soit de 2048,

ByteDance publie LatentSync, un modèle open source de synchronisation labiale pour un rendu ultra-réaliste

ByteDance a récemment publié LatentSync, un nouveau framework de synchronisation labiale visant à obtenir une synchronisation plus précise des lèvres grâce à un modèle de diffusion latent conditionnel à l'audio. Ce framework, basé sur Stable Diffusion, a été optimisé pour la cohérence temporelle. Contrairement aux méthodes précédentes basées sur la diffusion dans l'espace pixel ou la génération en deux étapes, LatentSync utilise une approche de bout en bout, sans représentation intermédiaire du mouvement, permettant de modéliser directement la relation complexe entre l'audio et la vidéo. Dans LatentSync,