LLaVA-3b
LLaVA-3b est un modèle affiné à partir de Dolphin 2.6 Phi, utilisant une tour visuelle SigLIP 400M affinée selon la méthode LLaVA. Le modèle se caractérise par plusieurs marqueurs d'image et l'utilisation de la sortie de la couche la plus récente de l'encodeur visuel.
Produit OrdinaireProgrammationHugging FaceLLaVA-3b
LLaVA-3b est un modèle affiné à partir de Dolphin 2.6 Phi, utilisant une tour visuelle SigLIP 400M affinée selon la méthode LLaVA. Le modèle se caractérise par plusieurs marqueurs d'image et l'utilisation de la sortie de la couche la plus récente de l'encodeur visuel. Ce modèle est basé sur Phi-2, soumis à la licence de recherche Microsoft et son utilisation commerciale est interdite. Nous remercions le ML Collective pour les crédits de ressources de calcul.
LLaVA-3b Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44