Le 24 mars 2025, DeepSeek, un institut de recherche chinois en intelligence artificielle, a publié sans aucun préavis sur la plateforme Hugging Face la dernière version de son modèle linguistique phare : DeepSeek-V3-0324. Cette mise à jour, qualifiée de « discrète mais puissante », a rapidement suscité un vif débat au sein de la communauté technologique, de nombreux développeurs et passionnés d'IA partageant leurs premières expériences et attentes. Voici un reportage approfondi basé sur les retours de la communauté technique.

I. Une publication mystérieuse : un monstre de 685 milliards de paramètres fait une apparition silencieuse

DeepSeek a conservé son approche discrète habituelle. Selon la communauté technique, le nouveau modèle a été mis en ligne discrètement sur Hugging Face le matin du 24 mars, sans aucun communiqué officiel ni conférence de presse. Le nombre de paramètres de la nouvelle version atteint 685 milliards, alors que selon l'article technique sur DeepSeek-V3 publié en décembre dernier, il était de 671 milliards. Cette différence a suscité des spéculations sur d'éventuels ajustements d'architecture. Bien que les paramètres techniques détaillés n'aient pas encore été divulgués officiellement, cette « attaque surprise » a suffi à enthousiasmer la communauté.

De multiples sources confirment que DeepSeek n'a annoncé cette mise à niveau que par un message de groupe, indiquant que le modèle était désormais open source sur Hugging Face et disponible gratuitement pour tous. Le reportage souligne également que des plateformes tierces ont rapidement fourni une prise en charge de l'API, démontrant la réactivité de la communauté face au nouveau modèle.

II. Un bond en termes de performances : amélioration significative des capacités mathématiques et de programmation

Le principal point fort de cette mise à jour réside dans l'amélioration significative des performances. Bien que l'entreprise la qualifie de « mise à jour mineure », les premiers tests montrent une nette progression du modèle en mathématiques et en conception frontale. De nombreux évaluateurs techniques ont rapporté une amélioration significative des capacités de programmation du modèle, se rapprochant du niveau de Claude 3.5. Certains évaluateurs ont partagé des exemples d'images générées par V3-0324, qualifiant les premiers résultats de « plutôt bons ».

En outre, les premiers retours indiquent que, outre l'amélioration des tâches techniques, le nouveau modèle pourrait offrir une expérience de conversation plus humaine. Cependant, en l'absence de données de référence publiées par l'entreprise, ces évaluations préliminaires nécessitent une vérification plus approfondie.

III. Une nouvelle posture open source : un écho enthousiaste de la communauté sous licence MIT

Contrairement aux versions précédentes, DeepSeek-V3-0324 utilise la licence open source MIT plus permissive, un changement largement considéré comme positif. Les commentateurs techniques soulignent que, outre l'amélioration significative des capacités de programmation, le modèle adopte une licence open source plus ouverte. Le modèle est désormais disponible sur les plateformes open source, avec 685 milliards de paramètres, reflétant l'approche de plus en plus ouverte de DeepSeek envers la communauté open source.

L'enthousiasme manifesté dans la section des commentaires de Hugging Face confirme cette observation. Le double avantage de l'open source et de l'amélioration des performances fait de DeepSeek-V3-0324 un potentiel agent de changement dans le secteur, susceptible de remettre en question la position de modèles propriétaires tels que OpenAI GPT-4 ou Anthropic Claude 3.5 Sonnet.

IV. Expérience utilisateur : une transition transparente du site Web à l'API

DeepSeek a également optimisé l'expérience utilisateur dans cette mise à jour. Selon les reportages techniques, les utilisateurs peuvent simplement désactiver la fonction « réflexion approfondie » sur le site Web pour utiliser directement la version V3-0324, tandis que l'interface API et les méthodes d'utilisation restent inchangées. Cette conception de transition transparente a réduit les obstacles à l'utilisation et a été saluée par la communauté.

Le reportage souligne également que des plateformes tierces ont déjà fourni un accès API, démontrant l'adaptation rapide de l'écosystème.

V. Perspectives d'avenir : le prélude à R2 ?

Bien qu'elle soit qualifiée de « mise à niveau mineure », l'impact de cette mise à jour dépasse les attentes. De nombreux membres de la communauté technique se demandent s'il ne s'agit pas d'une étape préparatoire au lancement imminent de DeepSeek-R2. DeepSeek-R1 avait auparavant concurrencé le modèle o1 d'OpenAI en matière de raisonnement logique et de tâches mathématiques, et le lancement de V3-0324 est considéré comme une accumulation de bases techniques pour la prochaine génération de modèles de raisonnement. Bien que DeepSeek n'ait pas encore confirmé la date de sortie de R2, l'attente de la communauté est clairement en hausse.

VI. Conclusion : une ascension puissante en toute discrétion

Le lancement de DeepSeek-V3-0324 perpétue le style habituel de l'entreprise : une publication discrète et des performances exceptionnelles. De son envergure de 685 milliards de paramètres à l'amélioration significative de ses capacités mathématiques et de programmation, en passant par sa stratégie open source sous licence MIT, ce modèle a indéniablement insufflé une nouvelle dynamique au domaine de l'IA. Comme l'a décrit un évaluateur technique : « Discret en apparence, puissant comme un tigre. » Même avant la divulgation complète des détails techniques, les développeurs et les chercheurs se sont lancés avec enthousiasme dans les tests, cherchant à exploiter tout le potentiel de cette « bête silencieuse ».

Alors que de plus en plus de résultats d'évaluation seront disponibles, il reste à voir si DeepSeek-V3-0324 pourra véritablement bouleverser la donne actuelle de l'IA, ce qui constituera un point focal d'attention au cours des prochaines semaines. Il est certain que DeepSeek progresse régulièrement dans la course mondiale à l'IA, à sa manière.