SmolVLM-256M-Instruct

SmolVLM-256M est le plus petit modèle multi-modal au monde, capable de traiter efficacement les entrées image et texte et de générer des sorties textuelles.

Produit OrdinaireImageMultimodalTraitement d'image
SmolVLM-256M est un modèle multi-modal développé par Hugging Face, basé sur l'architecture Idefics3, spécialement conçu pour le traitement efficace des entrées image et texte. Il peut répondre aux questions sur les images, décrire le contenu visuel ou transcrire du texte, et ne nécessite qu'un peu moins de 1 Go de mémoire GPU pour l'inférence. Ce modèle offre d'excellentes performances sur les tâches multi-modales tout en conservant une architecture légère, ce qui le rend adapté aux applications embarquées. Ses données d'entraînement proviennent des jeux de données The Cauldron et Docmatix, couvrant de nombreux domaines tels que la compréhension de documents et la description d'images, lui conférant un potentiel d'application large. Ce modèle est actuellement disponible gratuitement sur la plateforme Hugging Face, dans le but de fournir aux développeurs et aux chercheurs de puissantes capacités de traitement multi-modal.
Ouvrir le site Web

SmolVLM-256M-Instruct Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

SmolVLM-256M-Instruct Tendance des visites

SmolVLM-256M-Instruct Distribution géographique des visites

SmolVLM-256M-Instruct Sources de trafic

SmolVLM-256M-Instruct Alternatives