DeepSeek-V3, le nouveau modèle chinois révolutionnaire de l'IA : 20 jetons/seconde, un changement de paradigme ?

La startup chinoise d'intelligence artificielle DeepSeek a discrètement lancé son grand modèle linguistique DeepSeek-V3-0324, provoquant une onde de choc dans le secteur. Ce modèle, d'une taille impressionnante de 641 Go, est désormais disponible sur la plateforme de ressources IA Hugging Face. Fidèle à son style discret mais influent, DeepSeek n'a pas fait de grande annonce, se contentant d'un fichier README vide et des poids du modèle.

Ce modèle, sous licence MIT, est utilisable gratuitement à des fins commerciales et peut fonctionner directement sur un matériel grand public : un Apple Mac Studio équipé d'une puce M3 Ultra. Le chercheur en IA Awni Hannun a révélé sur les réseaux sociaux qu'une version quantifiée à 4 bits de DeepSeek-V3-0324 fonctionnait à plus de 20 jetons par seconde sur une puce M3 Ultra de 512 Go. Malgré le coût élevé du Mac Studio, la possibilité d'exécuter un modèle aussi volumineux en local révolutionne le secteur, en rompant avec la dépendance aux centres de données auparavant indispensable pour les IA de pointe.

DeepSeek

DeepSeek-V3-0324 utilise une architecture d'expert mixte (MoE), activant seulement environ 37 milliards de paramètres lors de l'exécution des tâches, au lieu des 685 milliards de paramètres totaux, ce qui améliore considérablement l'efficacité. Il intègre également les technologies d'attention potentielle multi-têtes (MLA) et de prédiction multi-jetons (MTP). La MLA améliore la compréhension contextuelle du modèle pour les longs textes, tandis que la MTP permet au modèle de générer plusieurs jetons à la fois, augmentant la vitesse de sortie de près de 80 %. La version quantifiée à 4 bits réduit les besoins de stockage à 352 Go, rendant possible son exécution sur du matériel grand public haut de gamme.

Les premiers testeurs ont signalé une amélioration significative par rapport à la version précédente. Le chercheur en IA Xeophon affirme que le modèle a fait un bond énorme sur tous les indicateurs de test, surpassant le modèle Claude Sonnet 3.5 d'Anthropic pour devenir le meilleur modèle non-inférentiel. De plus, contrairement à Sonnet, qui est un service payant, les poids de DeepSeek-V3-0324 sont téléchargeables gratuitement.

La stratégie de publication open source de DeepSeek contraste fortement avec celle des entreprises d'IA occidentales. Alors que des entreprises américaines comme OpenAI et Anthropic imposent des frais d'accès à leurs modèles, les entreprises chinoises d'IA privilégient de plus en plus des licences open source plus souples. Cette stratégie accélère le développement de l'écosystème chinois de l'IA, avec des géants technologiques comme Baidu, Alibaba et Tencent qui suivent le mouvement en publiant leurs propres modèles d'IA open source. Face aux restrictions sur les puces Nvidia, les entreprises chinoises transforment leurs inconvénients en avantages concurrentiels en mettant l'accent sur l'efficacité et l'optimisation.

DeepSeek-V3-0324 pourrait constituer la base du prochain modèle d'inférence DeepSeek-R2. Les modèles d'inférence actuels ont des besoins de calcul importants. Si DeepSeek-R2 offre des performances exceptionnelles, il pourrait constituer un défi direct au GPT-5, dont on parle beaucoup chez OpenAI.

Les utilisateurs et les développeurs souhaitant tester DeepSeek-V3-0324 peuvent télécharger les poids complets du modèle sur Hugging Face. Cependant, le fichier est volumineux et nécessite des ressources de stockage et de calcul importantes. Ils peuvent également opter pour des services cloud, tels qu'OpenRouter, qui offre un accès API gratuit et une interface de chat conviviale ; l'interface de chat de DeepSeek elle-même a probablement été mise à jour pour prendre en charge la nouvelle version. Les développeurs peuvent également intégrer le modèle via des fournisseurs de services d'inférence tels que Hyperbolic Labs.

Il est à noter que DeepSeek-V3-0324 a changé de style de communication, passant d'un style conversationnel auparavant similaire à celui d'un humain à un style plus formel et technique. Ce changement vise à répondre aux besoins des applications professionnelles et techniques, mais pourrait nuire à son attrait pour les applications grand public.

La stratégie open source de DeepSeek est en train de remodeler le paysage mondial de l'IA. Alors qu'il y avait auparavant un écart de 1 à 2 ans entre l'IA chinoise et américaine, cet écart s'est considérablement réduit à 3 à 6 mois, voire dépassé dans certains domaines. Tout comme le système Android a conquis le marché mondial grâce à l'open source, les modèles d'IA open source, grâce à leur large adoption et à l'innovation collective des développeurs, sont susceptibles de se démarquer de la concurrence et de promouvoir une utilisation plus large des technologies de l'IA.

Actualités IA

DeepSeek-V3, le nouveau modèle chinois révolutionnaire de l'IA : 20 jetons/seconde, un changement de paradigme ?

AIbase基地

Recommandations d'actualités IA connexes

Lancement du premier modèle linguistique de grande taille pour la pédiatrie au monde : une avancée majeure pour les soins médicaux aux enfants

Le modèle linguistique de grande taille Wenxin 4.5 de Baidu sera lancé le 16 mars, doté de capacités multimodales natives et de réflexion approfondie

Tuhu rachète 11 280 000 actions de catégorie A et intègre le modèle linguistique de grande taille DeepSeek

Intégration du modèle linguistique de grande taille Huazhi de CNKI à DeepSeek AI : une amélioration significative de l'assistant de recherche académique