La société chinoise d'intelligence artificielle DeepSeek a récemment lancé DeepSeek V3, un modèle linguistique de grande envergure (LLM) open source marquant une étape importante. Ce modèle, doté de 671 milliards de paramètres, surpasse non seulement Llama 3.1 de Meta en termes d'échelle, mais surpasse également les modèles propriétaires phares, y compris GPT-4, dans plusieurs tests de référence.
DeepSeek V3 se distingue par ses performances exceptionnelles et son processus de développement efficace. Le modèle a excellé dans les compétitions de programmation sur Codeforces et a devancé ses concurrents lors du test Aider Polyglot, qui évalue la capacité d'intégration de code. L'entraînement du modèle a utilisé un vaste ensemble de données de 14,8 billions de jetons, soit 1,6 fois plus que Llama 3.1.
Plus impressionnant encore, DeepSeek n'a mis que deux mois et 5,5 millions de dollars pour entraîner le modèle, un chiffre bien inférieur aux investissements de développement de produits similaires.
DeepSeek est soutenu par High-Flyer Capital Management, un fonds spéculatif quantitatif chinois. Ce fonds a investi dans la construction d'un cluster de serveurs comprenant 10 000 GPU Nvidia A100, d'une valeur d'environ 138 millions de dollars. Liang Wenfeng, fondateur de High-Flyer, a déclaré que l'IA open source finirait par briser le monopole des modèles propriétaires actuels.
DeepSeek V3 est publié sous une licence permissive, autorisant les développeurs à télécharger, modifier et utiliser le modèle pour diverses applications, y compris commerciales. Bien que l'exécution de la version complète nécessite toujours une infrastructure matérielle puissante, la publication de ce modèle open source marque une étape importante vers une innovation ouverte dans le domaine de l'IA.