LLaVA-OneVision
Hochwirksames Transformationsmodell für multimodale visuelle Aufgaben
Normales ProduktBildMultimodalVisuelle Erkennung
LLaVA-OneVision ist ein großes multimodales Modell (LMM), das in Zusammenarbeit von ByteDance und mehreren Universitäten entwickelt wurde. Es verschiebt die Leistungsgrenzen offener, großer multimodaler Modelle in Szenarien mit Einzelbildern, mehreren Bildern und Videos. Das Modelldesign ermöglicht ein robustes Transferlernen zwischen verschiedenen Modalitäten/Szenarien und zeigt neue, umfassende Fähigkeiten, insbesondere im Bereich des Videoverständnisses und der Szenenübergreifenden Fähigkeiten, die durch die Bild-zu-Video-Aufgabenübertragung demonstriert werden.
LLaVA-OneVision Neueste Verkehrssituation
Monatliche Gesamtbesuche
80956
Absprungrate
52.28%
Durchschnittliche Seiten pro Besuch
1.2
Durchschnittliche Besuchsdauer
00:00:34