moondream
Un puissant petit modèle linguistique visuel, partout accessible.
Produit OrdinaireImageVisionModèle linguistique
moondream est un modèle de 1,6 milliard de paramètres entraîné sur les ensembles de données SigLIP, Phi-1.5 et LLaVA. Les poids sont sous licence CC-BY-SA du fait de l’utilisation de l’ensemble de données LLaVA. Vous pouvez l’essayer sur Huggingface Spaces. Les performances du modèle sur les benchmarks VQAv2, GQA, VizWiz et TextVQA sont les suivantes :
LLaVA-1.5 (13,3 milliards de paramètres) : 80,0 ; 63,3 ; 53,6 ; 61,3
LLaVA-1.5 (7,3 milliards de paramètres) : 78,5 ; 62,0 ; 50,0 ; 58,2
MC-LLaVA-3B (3 milliards de paramètres) : 64,2 ; 49,6 ; 24,9 ; 38,6
LLaVA-Phi (3 milliards de paramètres) : 71,4 ; - ; 35,9 ; 48,6
moondream1 (1,6 milliard de paramètres) : 74,3 ; 56,3 ; 30,3 ; 39,8.
moondream Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34