moondream
Ein leistungsstarkes, kleines visuelles Sprachmodell – überall einsetzbar.
Normales ProduktBildVisuellSprachmodell
moondream ist ein 1,6 Milliarden Parameter umfassendes Modell, trainiert mit den Datensätzen SigLIP, Phi-1.5 und LLaVA. Aufgrund der Verwendung des LLaVA-Datensatzes unterliegen die Gewichte der CC-BY-SA-Lizenz. Sie können es auf Huggingface Spaces ausprobieren. Die Ergebnisse des Modells in den Benchmarks VQAv2, GQA, VizWiz und TextVQA sind wie folgt: LLaVA-1.5 (13,3 Mrd. Parameter): 80,0; 63,3; 53,6; 61,3; LLaVA-1.5 (7,3 Mrd. Parameter): 78,5; 62,0; 50,0; 58,2; MC-LLaVA-3B (3 Mrd. Parameter): 64,2; 49,6; 24,9; 38,6; LLaVA-Phi (3 Mrd. Parameter): 71,4; -; 35,9; 48,6; moondream1 (1,6 Mrd. Parameter): 74,3; 56,3; 30,3; 39,8.
moondream Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34