SmolVLM-500M-Instruct
SmolVLM-500M est un modèle multimodal léger capable de traiter des entrées image et texte et de générer des sorties textuelles.
Produit OrdinaireImageMultimodalDescription d'images
SmolVLM-500M est un modèle multimodal léger développé par Hugging Face, appartenant à la série SmolVLM. Ce modèle, basé sur l'architecture Idefics3, est axé sur des tâches de traitement d'images et de texte efficaces. Il accepte des entrées image et texte dans n'importe quel ordre pour générer une sortie textuelle, et convient à des tâches telles que la description d'images et la question-réponse visuelle. Son architecture légère lui permet de fonctionner sur des appareils aux ressources limitées tout en conservant des performances élevées pour les tâches multimodales. Ce modèle est sous licence Apache 2.0, ce qui permet son utilisation en open source et dans des contextes variés.
SmolVLM-500M-Instruct Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44