CuMo est une architecture d'extension pour les grands modèles de langage multimodaux (LLM). Elle améliore l'extensibilité du modèle en intégrant des blocs de mélange d'experts (MoE) Top-K clairsemés dans le codeur visuel et le connecteur MLP, sans augmenter significativement les paramètres d'activation lors de l'inférence. CuMo initialise chaque expert dans les blocs MoE après le pré-entraînement des blocs MLP, et utilise une perte auxiliaire pendant la phase d'adaptation aux instructions visuelles pour assurer une charge équilibrée des experts. CuMo surpasse d'autres modèles similaires sur diverses références VQA et de suivi d'instructions visuelles, et est entièrement entraîné sur des ensembles de données open source.