DeepSeek-VL2

Modèle avancé de compréhension multimodale, fusionnant les capacités visuelles et linguistiques.

Produit OrdinaireImageModèle linguistique visuelCompréhension multimodale

DeepSeek-VL2 est une série de grands modèles linguistiques visuels Mixture-of-Experts, représentant une amélioration significative par rapport à la génération précédente, DeepSeek-VL. Cette série de modèles démontre des capacités exceptionnelles dans des tâches telles que la question-réponse visuelle, la reconnaissance optique de caractères, la compréhension de documents/tableaux/graphiques et la localisation visuelle. DeepSeek-VL2 comprend trois variantes : DeepSeek-VL2-Tiny, DeepSeek-VL2-Small et DeepSeek-VL2, possédant respectivement 1,0 milliard, 2,8 milliards et 4,5 milliards de paramètres activés. DeepSeek-VL2 atteint des performances compétitives ou de pointe par rapport aux modèles de base open source denses et MoE existants, avec un nombre de paramètres activés similaire ou inférieur.

Best AI Websites & Tools

DeepSeek-VL2

DeepSeek-VL2 Dernière situation du trafic

DeepSeek-VL2 Tendance des visites

DeepSeek-VL2 Distribution géographique des visites

DeepSeek-VL2 Sources de trafic

DeepSeek-VL2 Alternatives

DeepSeek-VL2 — Modèle avancé de compréhension multimodale, fusionnant les capacités visuelles et linguistiques.

DeepSeek-VL2-Small — Modèle linguistique visuel de grande taille et avancé à experts mixtes

DeepSeek-VL2-Tiny — Modèle linguistique visuel de grande taille et avancé à experts mixtes

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

VLM-R1 — VLM-R1 est un modèle linguistique visuel renforcé stable et polyvalent, axé sur les tâches de compréhension visuelle.

SmolVLM-500M-Instruct — SmolVLM-500M est un modèle multimodal léger capable de traiter des entrées image et texte et de générer des sorties textuelles.

Ollama OCR pour le web — Une puissante librairie OCR utilisant des modèles linguistiques visuels de pointe pour extraire du texte à partir d'images.

Moondream AI — Modèle linguistique visuel open source, fonctionnant sur divers appareils.

PaliGemma2-3b-pt-448 — PaliGemma 2 est un puissant modèle visuel-linguistique prenant en charge diverses tâches de traitement du langage visuel.

InternVL2_5-26B-MPO — Grand modèle linguistique multimodale améliorant l'interaction visuelle et linguistique.

CogAgent — Agent GUI basé sur un modèle linguistique visuel (VLM) open source de bout en bout

InternVL2_5-1B-MPO — Modèle linguistique de grande taille multi-modal améliorant la compréhension globale de la vision et du langage.

POINTS-Yi-1.5-9B-Chat — Les dernières avancées en matière de modèles linguistiques visuels, intégrant les nouvelles technologies de WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Les dernières avancées en matière de modèles linguistiques visuels

POINTS-1-5-Qwen-2-5-7B-Chat — Modèle linguistique visuel de pointe, prenant en charge le bilinguisme et un contrôle de haute qualité, gratuit.

StagiaireVL d'OpenGVLab — Un modèle linguistique visuel IA offrant des services d'analyse et de description d'images.

Qwen2-VL-7B — Qwen2-VL-7B est le dernier modèle linguistique visuel, prenant en charge la compréhension multimodale et la génération de texte.

Qwen2-VL-2B — Modèle linguistique visuel de pointe, prenant en charge la compréhension multimodale et la génération de texte.

PaliGemma 2 — PaliGemma 2 est un puissant modèle linguistique visuel, simple à optimiser.

LLaVA-o1 — Modèle linguistique visuel capable de raisonnement étape par étape

OmniParser — Analyseur d'interface utilisateur graphique basé sur la vision par ordinateur

VisRAG — Modèle génératif augmenté par la recherche basé sur un modèle linguistique visuel

ColPali — Outil de recherche documentaire efficace basé sur un modèle linguistique visuel

Helpful DoggyBot — Système d'exploitation de robot quadrupède pour la mobilité intérieure

Pixtral-12B-2409 — Modèle multimodal de 12 milliards de paramètres, combinant un encodeur visuel pour traiter les images et le texte.

EAGLE — Exploration de l'espace de conception des grands modèles linguistiques multimodaux

Qwen2-VL — Modèle linguistique visuel nouvelle génération, pour une vision du monde plus claire.

InternLM-XComposer-2.5 — Un modèle linguistique visuel de grande taille multifonctionnel

VideoLLaMA2-7B — Grand modèle linguistique vidéo, offrant des fonctionnalités de question-réponse visuelle et de génération de sous-titres vidéo.

VideoLLaMA2-7B-Base — Grand modèle linguistique vidéo, offrant la génération de réponses à des questions visuelles et de sous-titres vidéo.