Cola

Großes Sprachmodell als Koordinator für visuelle Inferenz

Normales ProduktProduktivitätSprachmodellVisuelle Inferenz
Cola ist eine Methode zur Aggregation der Ausgaben von zwei oder mehr visuell-sprachlichen Modellen (VLM) mithilfe eines Sprachmodells (LM). Unsere Modellzusammenführungsmethode wird als Cola (COordinative LAnguage model for visual reasoning) bezeichnet. Cola erzielt die besten Ergebnisse bei der Feinabstimmung des LM (als Cola-FT bezeichnet). Cola ist auch im kontextlosen oder schwach überwachten Lernen (als Cola-Zero bezeichnet) sehr effektiv. Neben der Leistungssteigerung ist Cola auch robuster gegenüber Fehlern in VLMs. Wir zeigen, dass Cola auf verschiedene VLMs (einschließlich großer multimodaler Modelle wie InstructBLIP) und sieben Datensätze (VQA v2, OK-VQA, A-OKVQA, e-SNLI-VE, VSR, CLEVR, GQA) angewendet werden kann und die Leistung stets verbessert.
Website öffnen

Cola Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

Cola Besuchstrend

Cola Geografische Verteilung der Besuche

Cola Traffic-Quellen

Cola Alternativen