InternVL2_5-1B-MPO

Modèle linguistique de grande taille multi-modal améliorant la compréhension globale de la vision et du langage.

Produit OrdinaireProductivitéMultimodalGrand modèle linguistique

InternVL2_5-1B-MPO est un grand modèle linguistique multi-modal (MLLM) construit sur InternVL2.5 et l'optimisation par préférences mixtes (MPO), démontrant des performances globales supérieures. Ce modèle intègre InternViT, pré-entraîné de manière incrémentale, avec divers grands modèles linguistiques (LLM) pré-entraînés, notamment InternLM 2.5 et Qwen 2.5, utilisant un projecteur MLP initialisé aléatoirement. InternVL2_5-MPO conserve l'architecture « ViT-MLP-LLM » identique à celle d'InternVL 2.5 et de ses prédécesseurs, et introduit la prise en charge des données multi-images et vidéo. Ce modèle excelle dans les tâches multimodales, capable de gérer diverses tâches de vision-langage, notamment la description d'images et la question-réponse visuelle.

Ouvrir le site Web

InternVL2_5-1B-MPO Dernière situation du trafic

Nombre total de visites mensuelles

27175375

Taux de rebond

44.30%

Nombre moyen de pages par visite

5.8

Durée moyenne de la visite

00:04:57

InternVL2_5-1B-MPO Tendance des visites

InternVL2_5-1B-MPO Distribution géographique des visites

InternVL2_5-1B-MPO Sources de trafic

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO Dernière situation du trafic

InternVL2_5-1B-MPO Tendance des visites

InternVL2_5-1B-MPO Distribution géographique des visites

InternVL2_5-1B-MPO Sources de trafic

InternVL2_5-1B-MPO Alternatives

InternVL2_5-26B-MPO — Grand modèle linguistique multimodale améliorant l'interaction visuelle et linguistique.

InternVL2_5-1B-MPO — Modèle linguistique de grande taille multi-modal améliorant la compréhension globale de la vision et du langage.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

SmolVLM-500M-Instruct — SmolVLM-500M est un modèle multimodal léger capable de traiter des entrées image et texte et de générer des sorties textuelles.

Doubao-1.5-pro — Doubao-1.5-pro est un grand modèle linguistique MoE (Mixture of Experts) sparcifié, haute performance, axé sur l'équilibre optimal entre performances d'inférence et capacités du modèle.

InternVL2_5-78B-MPO — Il s'agit d'une série de modèles linguistiques de grande taille multimodaux avancés, démontrant des performances globales exceptionnelles.

MinMo — MinMo est un grand modèle linguistique multimodal conçu pour une interaction vocale transparente.

InternVL2_5-38B-MPO — Série de modèles InternVL2.5-MPO, basée sur InternVL2.5 et l'optimisation des préférences mixtes, démontrant des performances exceptionnelles.

InternVL2_5-26B-MPO-AWQ — Modèle linguistique multimodal de grande taille avancé, doté de capacités exceptionnelles de raisonnement multimodal.

VITA-1.5 — VITA-1.5 : Modèle linguistique multimodal de classe GPT-4o, permettant une interaction visuelle et vocale en temps réel

InternVL2_5-8B-MPO — Modèle linguistique large multi-modal, affichant des performances globales exceptionnelles.

InternVL2_5-4B-MPO-AWQ — Modèle linguistique de grande taille multi-modal, optimisant les capacités d'interaction entre l'image et le texte.

InternVL2_5-4B-MPO — Modèle linguistique multimodal de grande taille, affichant des performances globales exceptionnelles.

Valley 2.0 — Modèle linguistique de grande taille multimodale améliorant le traitement des données textuelles, images et vidéos.

InternVL2_5-2B-MPO — Modèle linguistique large multimodal avancé

InternVL2-8B-MPO — Modèle linguistique multimodal de grande taille, améliorant les capacités de raisonnement multimodal.

InternVL 2.5 — Série de grands modèles linguistiques multimodaux open source

InternVL2_5-4B — Modèle linguistique large multi-modal, fusionnant la compréhension visuelle et linguistique.

InternVL2_5-2B — Modèle linguistique de grande taille multi-modal, prenant en charge une interaction approfondie entre images et texte.

InternVL2_5-1B — Modèle linguistique de grande taille multimodale, prenant en charge la compréhension d'images et de texte.

InternVL2_5-8B — Modèle linguistique de grande taille multimodale, prenant en charge la compréhension interactive d'images et de texte.

InternVL2_5-38B — Série de modèles linguistiques de grande taille multimodaux de pointe

InternVL2_5-78B — Série de modèles linguistiques de grande taille multimodaux avancés

Pixtral-Large-Instruct-2411 — Modèle linguistique multimodal de grande taille de 124 milliards de paramètres

ultravox-v0_4_1-llama-3_1-70b — Modèle linguistique large multi-modal vocal

Ferret-UI-Llama8b — Modèle linguistique de grande taille multimodale basé sur Llama-3-8B, spécialisé dans les tâches liées à l'interface utilisateur.

MM1.5 — Optimisation et analyse d'un grand modèle linguistique multi-modal

NVLM 1.0 — Modèle linguistique multimodal de pointe

NVLM-D-72B — Modèle linguistique multimodal de grande envergure de pointe

Llama-3.2-11B-Vision — Modèle linguistique de grande taille multimodale, prenant en charge le traitement d'images et de texte.