CuMo
Une architecture avancée pour étendre les grands modèles de langage multimodaux (LLM).
Produit OrdinaireProgrammationIAApprentissage multimodale
CuMo est une architecture d'extension pour les grands modèles de langage multimodaux (LLM). Elle améliore l'extensibilité du modèle en intégrant des blocs de mélange d'experts (MoE) Top-K clairsemés dans le codeur visuel et le connecteur MLP, sans augmenter significativement les paramètres d'activation lors de l'inférence. CuMo initialise chaque expert dans les blocs MoE après le pré-entraînement des blocs MLP, et utilise une perte auxiliaire pendant la phase d'adaptation aux instructions visuelles pour assurer une charge équilibrée des experts. CuMo surpasse d'autres modèles similaires sur diverses références VQA et de suivi d'instructions visuelles, et est entièrement entraîné sur des ensembles de données open source.
CuMo Dernière situation du trafic
Nombre total de visites mensuelles
340
Taux de rebond
43.45%
Nombre moyen de pages par visite
1.0
Durée moyenne de la visite
00:00:00