SmolVLM-500M-Instruct

SmolVLM-500M est un modèle multimodal léger capable de traiter des entrées image et texte et de générer des sorties textuelles.

Produit OrdinaireImageMultimodalDescription d'images

Ouvrir le site Web

SmolVLM-500M est un modèle multimodal léger développé par Hugging Face, appartenant à la série SmolVLM. Ce modèle, basé sur l'architecture Idefics3, est axé sur des tâches de traitement d'images et de texte efficaces. Il accepte des entrées image et texte dans n'importe quel ordre pour générer une sortie textuelle, et convient à des tâches telles que la description d'images et la question-réponse visuelle. Son architecture légère lui permet de fonctionner sur des appareils aux ressources limitées tout en conservant des performances élevées pour les tâches multimodales. Ce modèle est sous licence Apache 2.0, ce qui permet son utilisation en open source et dans des contextes variés.

Best AI Websites & Tools

SmolVLM-500M-Instruct

SmolVLM-500M-Instruct Dernière situation du trafic

SmolVLM-500M-Instruct Tendance des visites

SmolVLM-500M-Instruct Distribution géographique des visites

SmolVLM-500M-Instruct Sources de trafic

SmolVLM-500M-Instruct Alternatives

SmolVLM-500M-Instruct — SmolVLM-500M est un modèle multimodal léger capable de traiter des entrées image et texte et de générer des sorties textuelles.

SmolVLM-256M-Instruct — SmolVLM-256M est le plus petit modèle multi-modal au monde, capable de traiter efficacement les entrées image et texte et de générer des sorties textuelles.

InternVL2_5-1B-MPO — Modèle linguistique de grande taille multi-modal améliorant la compréhension globale de la vision et du langage.

SEED — Donne à LLM la capacité de visualiser et de dessiner.

Aya Vision 32B — Aya Vision 32B est un modèle de langage visuel multilingue adapté à de multiples usages, tels que l'OCR, la description d'images et le raisonnement visuel.

Aya Vision 8B — Modèle de langage visuel multilingue à 800 millions de paramètres, prenant en charge l'OCR, la description d'images et le raisonnement visuel.

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

Wan2.1 — Wan2.1 est un modèle de génération vidéo évolué et open source à grande échelle, prenant en charge plusieurs tâches de génération vidéo.

DeepSeek Japonais — DeepSeek est un modèle linguistique IA avancé, maîtrisant le raisonnement logique, les mathématiques et la programmation, et disponible gratuitement.

Janus-Pro-1B — Janus-Pro-1B est un framework autorégressif unifié de compréhension et de génération multimodale.

kokoro-onnx — Projet de synthèse vocale (TTS) basé sur le runtime Kokoro et ONNX.

Moondream AI — Modèle linguistique visuel open source, fonctionnant sur divers appareils.

PaliGemma2-3b-pt-448 — PaliGemma 2 est un puissant modèle visuel-linguistique prenant en charge diverses tâches de traitement du langage visuel.

VITA-1.5 — VITA-1.5 : Modèle linguistique multimodal de classe GPT-4o, permettant une interaction visuelle et vocale en temps réel

Zasper — Un IDE super puissant conçu pour la data science, prenant en charge le traitement hautement concurrentiel.

InternVL2_5-26B-MPO — Grand modèle linguistique multimodale améliorant l'interaction visuelle et linguistique.

OpenEMMA — Modèle multimodal de conduite autonome de bout en bout, open source

YuLan-Mini — Un modèle linguistique léger et performant de 240 millions de paramètres

Valley 2.0 — Modèle linguistique de grande taille multimodale améliorant le traitement des données textuelles, images et vidéos.

Gemini Multimodal Live + WebRTC — Application monofichier intégrant la diffusion multimodale Gemini et la technologie WebRTC.

InternVL 2.5 — Série de grands modèles linguistiques multimodaux open source

NVLM 1.0 — Modèle linguistique multimodal de pointe

Llama 3.2 — Modèle d'IA open source, adaptable, distillable et déployable.

Pixtral-12B-2409 — Modèle multimodal de 12 milliards de paramètres, combinant un encodeur visuel pour traiter les images et le texte.

VideoLLaMA2-7B — Grand modèle linguistique vidéo, offrant des fonctionnalités de question-réponse visuelle et de génération de sous-titres vidéo.

Falcon 2 — Falcon 2 est un modèle multimodal, multilingue et open source capable de convertir des images en texte.

Meta Llama 3 — Modèle linguistique de grande taille (LLM) nouvelle génération open source de Meta, aux performances exceptionnelles.

JetMoE-8B — Un grand modèle linguistique hautes performances à faible coût

idefics-80b — Modèle multi-modal généraliste pouvant être utilisé pour la Q&R, la description d'images, etc.