Cola
Modèle linguistique de grande taille pour la coordination du raisonnement visuel
Produit OrdinaireProductivitéModèle linguistiqueRaisonnement visuel
Cola est une méthode utilisant un modèle linguistique (LM) pour agréger les sorties de deux modèles vision-langage (VLM) ou plus. Notre méthode d'assemblage de modèles est appelée Cola (COordinative LAnguage model or visual reasoning). Cola est plus performant lors du réglage fin du LM (appelé Cola-FT). Cola est également efficace dans le contexte de l'apprentissage zéro-shot ou peu shot (appelé Cola-Zero). Au-delà de l'amélioration des performances, Cola est plus robuste aux erreurs des VLM. Nous démontrons que Cola peut être appliqué à divers VLM (y compris les grands modèles multimodaux tels qu'InstructBLIP) et à 7 ensembles de données (VQA v2, OK-VQA, A-OKVQA, e-SNLI-VE, VSR, CLEVR, GQA), et qu'il améliore systématiquement les performances.
Cola Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34