Récemment, l'équipe Ling d'Ant Group a publié sur la plateforme de prépublication Arxiv un article intitulé « Chaque FLOP compte : extension d'un modèle linguistique géant Ling à 300 milliards de paramètres sans GPU haut de gamme ». Cet article présente deux nouveaux modèles linguistiques : Ling-Lite et Ling-Plus. Ces deux modèles intègrent plusieurs innovations de conception permettant un entraînement efficace sur du matériel peu performant, réduisant ainsi considérablement les coûts.

Ling-Lite possède 16,8 milliards de paramètres, dont 2,75 milliards de paramètres d'activation. Le modèle de base de Ling-Plus, quant à lui, atteint 290 milliards de paramètres, avec 28,8 milliards de paramètres d'activation. Les performances de ces deux modèles sont parmi les meilleures du secteur, notamment celle de Ling-Plus : son modèle MoE à 300 milliards de paramètres, entraîné sur des équipements peu performants équipés de GPU chinois, offre des résultats comparables à ceux obtenus avec des puces Nvidia haut de gamme.

Accélérateur, accélération, lumière

Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney

Habituellement, l'entraînement des modèles MoE nécessite des GPU haut de gamme coûteux, tels que les H100 et H800 de Nvidia. Cela engendre non seulement des coûts élevés, mais aussi des contraintes liées aux pénuries de puces, limitant ainsi leur utilisation dans des environnements aux ressources restreintes. L'équipe Ling d'Ant Group a donc défini un nouvel objectif : étendre les modèles « sans GPU haut de gamme », dépassant ainsi les limites des ressources et du budget. Leur stratégie d'entraînement innovante comprend une allocation dynamique des paramètres, une planification de précision mixte et un mécanisme amélioré de gestion des exceptions d'entraînement. Ces stratégies réduisent efficacement le temps de réponse aux interruptions et optimisent le processus d'évaluation du modèle, comprimant le cycle de validation de plus de 50 %.

Lors des expériences, l'équipe Ling a pré-entraîné Ling-Plus sur 9 000 milliards de jetons. Les résultats montrent qu'entraîner un modèle sur 1 000 milliards de jetons avec du matériel haut de gamme coûte environ 6,35 millions de yuans, tandis que l'utilisation de la méthode optimisée d'Ant réduit le coût à environ 5,08 millions de yuans sur du matériel bas de gamme, soit une économie de près de 20 %. Simultanément, les performances sont comparables à celles d'Ali Tongyi Qwen2.5-72B-Instruct et DeepSeek-V2.5-1210-Chat.

Si ces résultats techniques sont largement adoptés, ils offriront aux grands modèles chinois une solution plus économique et efficace, réduisant la dépendance aux puces Nvidia et ouvrant de nouvelles voies au développement futur de l'intelligence artificielle.