CuMo

Une architecture avancée pour étendre les grands modèles de langage multimodaux (LLM).

Produit OrdinaireProgrammationIAApprentissage multimodale
CuMo est une architecture d'extension pour les grands modèles de langage multimodaux (LLM). Elle améliore l'extensibilité du modèle en intégrant des blocs de mélange d'experts (MoE) Top-K clairsemés dans le codeur visuel et le connecteur MLP, sans augmenter significativement les paramètres d'activation lors de l'inférence. CuMo initialise chaque expert dans les blocs MoE après le pré-entraînement des blocs MLP, et utilise une perte auxiliaire pendant la phase d'adaptation aux instructions visuelles pour assurer une charge équilibrée des experts. CuMo surpasse d'autres modèles similaires sur diverses références VQA et de suivi d'instructions visuelles, et est entièrement entraîné sur des ensembles de données open source.
Ouvrir le site Web

CuMo Dernière situation du trafic

Nombre total de visites mensuelles

340

Taux de rebond

43.45%

Nombre moyen de pages par visite

1.0

Durée moyenne de la visite

00:00:00

CuMo Tendance des visites

CuMo Distribution géographique des visites

CuMo Sources de trafic

CuMo Alternatives