SmolVLM-256M-Instruct

SmolVLM-256M est le plus petit modèle multi-modal au monde, capable de traiter efficacement les entrées image et texte et de générer des sorties textuelles.

Produit OrdinaireImageMultimodalTraitement d'image

Ouvrir le site Web

SmolVLM-256M est un modèle multi-modal développé par Hugging Face, basé sur l'architecture Idefics3, spécialement conçu pour le traitement efficace des entrées image et texte. Il peut répondre aux questions sur les images, décrire le contenu visuel ou transcrire du texte, et ne nécessite qu'un peu moins de 1 Go de mémoire GPU pour l'inférence. Ce modèle offre d'excellentes performances sur les tâches multi-modales tout en conservant une architecture légère, ce qui le rend adapté aux applications embarquées. Ses données d'entraînement proviennent des jeux de données The Cauldron et Docmatix, couvrant de nombreux domaines tels que la compréhension de documents et la description d'images, lui conférant un potentiel d'application large. Ce modèle est actuellement disponible gratuitement sur la plateforme Hugging Face, dans le but de fournir aux développeurs et aux chercheurs de puissantes capacités de traitement multi-modal.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

SmolVLM-256M-Instruct

SmolVLM-256M-Instruct Dernière situation du trafic

SmolVLM-256M-Instruct Tendance des visites

SmolVLM-256M-Instruct Distribution géographique des visites

SmolVLM-256M-Instruct Sources de trafic

SmolVLM-256M-Instruct Alternatives

SmolVLM-256M-Instruct — SmolVLM-256M est le plus petit modèle multi-modal au monde, capable de traiter efficacement les entrées image et texte et de générer des sorties textuelles.

Pixtral-12B-2409 — Modèle multimodal de 12 milliards de paramètres, combinant un encodeur visuel pour traiter les images et le texte.

Liquid — Un modèle de génération multimodale intégrant la compréhension et la génération d'images.

Magma-8B — Magma-8B est un modèle d'IA multimodale développé par Microsoft, capable de traiter des entrées image et texte et de générer des sorties textuelles.

InternVL2_5-38B-MPO — Série de modèles InternVL2.5-MPO, basée sur InternVL2.5 et l'optimisation des préférences mixtes, démontrant des performances exceptionnelles.

InternVL2_5-2B-MPO — Modèle linguistique large multimodal avancé

Qwen2-VL-7B — Qwen2-VL-7B est le dernier modèle linguistique visuel, prenant en charge la compréhension multimodale et la génération de texte.

Qwen2-VL-2B — Modèle linguistique visuel de pointe, prenant en charge la compréhension multimodale et la génération de texte.

ultravox-v0_4_1-llama-3_1-70b — Modèle linguistique large multi-modal vocal

Aquila-VL-2B-llava-qwen — Modèle de langage visuel combinant informations image et texte pour un traitement intelligent.

Ferret-UI-Llama8b — Modèle linguistique de grande taille multimodale basé sur Llama-3-8B, spécialisé dans les tâches liées à l'interface utilisateur.

Phi-3.5-vision — Modèle multi-modal avancé prenant en charge la compréhension des images et du texte.

LLaVA-OneVision — Modèle de transformation performant pour les tâches de vision multimodale

Falcon 2 — Falcon 2 est un modèle multimodal, multilingue et open source capable de convertir des images en texte.

MouSi — Modèle linguistique visuel multimodal

UniVG — Système de génération vidéo multimodale unifié

TinyGPT-V — Modèle linguistique large multimodal performant

Fuyu-8B — Modèle multi-modal compact, prenant en charge la génération d'images et de texte

SEED — Donne à LLM la capacité de visualiser et de dessiner.

Clevis — Créez et commercialisez des applications basées sur l'IA sans écrire une seule ligne de code.

GLM-4-32B — Modèle linguistique puissant, prenant en charge plusieurs tâches de traitement du langage naturel.

InternVL3 — InternVL3 open source : 7 tailles couvrant le traitement de texte, d'images et de vidéos, capacités multimodales étendues à l'analyse d'images industrielles

Pusa — Pusa est un nouveau modèle de diffusion vidéo prenant en charge plusieurs tâches de génération vidéo.

Kimi-VL — Modèle linguistique visuel hybride open source et expert, hautement efficace, doté de capacités de raisonnement multimodales.

Dream 7B — Dream 7B est l'un des modèles linguistiques de diffusion ouverts les plus puissants.

DreamActor-M1 — Un framework d'animation d'images humaines basé sur DiT, permettant un contrôle précis et une cohérence à long terme.

MeshifAI — Convertissez instantanément du texte en modèles 3D époustouflants.

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

DeepSeek-V3-0324 — Un puissant modèle de génération de texte, adapté à diverses applications de dialogue.

StarVector — Modèle de base pour la génération de code SVG de haute qualité.