Cola
Großes Sprachmodell als Koordinator für visuelle Inferenz
Normales ProduktProduktivitätSprachmodellVisuelle Inferenz
Cola ist eine Methode zur Aggregation der Ausgaben von zwei oder mehr visuell-sprachlichen Modellen (VLM) mithilfe eines Sprachmodells (LM). Unsere Modellzusammenführungsmethode wird als Cola (COordinative LAnguage model for visual reasoning) bezeichnet. Cola erzielt die besten Ergebnisse bei der Feinabstimmung des LM (als Cola-FT bezeichnet). Cola ist auch im kontextlosen oder schwach überwachten Lernen (als Cola-Zero bezeichnet) sehr effektiv. Neben der Leistungssteigerung ist Cola auch robuster gegenüber Fehlern in VLMs. Wir zeigen, dass Cola auf verschiedene VLMs (einschließlich großer multimodaler Modelle wie InstructBLIP) und sieben Datensätze (VQA v2, OK-VQA, A-OKVQA, e-SNLI-VE, VSR, CLEVR, GQA) angewendet werden kann und die Leistung stets verbessert.
Cola Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34