Cola

Modèle linguistique de grande taille pour la coordination du raisonnement visuel

Produit OrdinaireProductivitéModèle linguistiqueRaisonnement visuel
Cola est une méthode utilisant un modèle linguistique (LM) pour agréger les sorties de deux modèles vision-langage (VLM) ou plus. Notre méthode d'assemblage de modèles est appelée Cola (COordinative LAnguage model or visual reasoning). Cola est plus performant lors du réglage fin du LM (appelé Cola-FT). Cola est également efficace dans le contexte de l'apprentissage zéro-shot ou peu shot (appelé Cola-Zero). Au-delà de l'amélioration des performances, Cola est plus robuste aux erreurs des VLM. Nous démontrons que Cola peut être appliqué à divers VLM (y compris les grands modèles multimodaux tels qu'InstructBLIP) et à 7 ensembles de données (VQA v2, OK-VQA, A-OKVQA, e-SNLI-VE, VSR, CLEVR, GQA), et qu'il améliore systématiquement les performances.
Ouvrir le site Web

Cola Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

Cola Tendance des visites

Cola Distribution géographique des visites

Cola Sources de trafic

Cola Alternatives