L'équipe de développement du grand modèle linguistique Doubao de ByteDance a annoncé aujourd'hui avoir mis au point avec succès une nouvelle architecture de modèle clairsemé, UltraMem. Cette architecture résout efficacement le problème de l'accès mémoire coûteux lors de l'inférence des modèles MoE (Mixture of Experts), augmentant la vitesse d'inférence de 2 à 6 fois et réduisant le coût d'inférence jusqu'à 83 %. Cette avancée révolutionnaire ouvre de nouvelles voies pour l'inférence efficace des grands modèles.

Grand modèle linguistique Doubao de ByteDance

L'architecture UltraMem résout avec succès le goulot d'étranglement de l'accès mémoire lors de l'inférence de l'architecture MoE, tout en garantissant l'efficacité du modèle. Les résultats expérimentaux montrent que, pour des paramètres et des conditions d'activation identiques, UltraMem non seulement surpasse MoE en termes d'efficacité du modèle, mais améliore également la vitesse d'inférence de 2 à 6 fois. De plus, pour les tailles de lots courantes, le coût d'accès mémoire d'UltraMem est presque équivalent à celui d'un modèle Dense de même capacité de calcul, réduisant ainsi considérablement le coût d'inférence.

QQ20250212-140416.png

L'équipe de recherche a entraîné un modèle UltraMem de 20 millions de valeurs. Les résultats expérimentaux montrent que, avec les mêmes ressources de calcul, ce modèle atteint simultanément une vitesse d'inférence et des performances de modèle de pointe. Ce résultat confirme les excellentes caractéristiques d'évolutivité de l'architecture UltraMem et jette les bases de la construction de modèles avec des milliards de valeurs ou d'experts.

Avec l'augmentation constante de la taille des grands modèles, le coût et la vitesse d'inférence deviennent des facteurs clés limitant leur application. Bien que l'architecture MoE ait permis le découplage du calcul et des paramètres, ses besoins élevés en accès mémoire lors de l'inférence entraînent une augmentation des délais. L'introduction de l'architecture UltraMem résout efficacement ce problème et offre un nouveau choix technique pour l'application à grande échelle des grands modèles.