SmolVLM-500M-Instruct

SmolVLM-500M est un modèle multimodal léger capable de traiter des entrées image et texte et de générer des sorties textuelles.

Produit OrdinaireImageMultimodalDescription d'images
SmolVLM-500M est un modèle multimodal léger développé par Hugging Face, appartenant à la série SmolVLM. Ce modèle, basé sur l'architecture Idefics3, est axé sur des tâches de traitement d'images et de texte efficaces. Il accepte des entrées image et texte dans n'importe quel ordre pour générer une sortie textuelle, et convient à des tâches telles que la description d'images et la question-réponse visuelle. Son architecture légère lui permet de fonctionner sur des appareils aux ressources limitées tout en conservant des performances élevées pour les tâches multimodales. Ce modèle est sous licence Apache 2.0, ce qui permet son utilisation en open source et dans des contextes variés.
Ouvrir le site Web

SmolVLM-500M-Instruct Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

SmolVLM-500M-Instruct Tendance des visites

SmolVLM-500M-Instruct Distribution géographique des visites

SmolVLM-500M-Instruct Sources de trafic

SmolVLM-500M-Instruct Alternatives