CuMo
Eine fortschrittliche Architektur zur Erweiterung multimodaler großer Sprachmodelle (LLMs).
Normales ProduktProgrammierungKIMultimodales Lernen
CuMo ist eine Architektur zur Erweiterung multimodaler großer Sprachmodelle (LLMs). Sie verbessert die Skalierbarkeit des Modells durch die Integration spärlicher Top-K-Gated-Expert-Mixture (MoE)-Blöcke in den visuellen Encoder und den MLP-Connector, ohne dabei die Aktivierungsparameter bei der Inferenz nennenswert zu erhöhen. Nach dem Pretraining der MLP-Blöcke initialisiert CuMo jeden Experten in den MoE-Blöcken und verwendet während der visuellen Anweisungs-Feinabstimmung einen Hilfsverlust, um eine ausgeglichene Last der Experten sicherzustellen. CuMo übertrifft andere vergleichbare Modelle in verschiedenen VQA- und visuellen Anweisungs-Benchmarktests und basiert vollständig auf Open-Source-Datensätzen.
CuMo Neueste Verkehrssituation
Monatliche Gesamtbesuche
340
Absprungrate
43.45%
Durchschnittliche Seiten pro Besuch
1.0
Durchschnittliche Besuchsdauer
00:00:00