InternVL2_5-1B-MPO

Modèle linguistique de grande taille multi-modal améliorant la compréhension globale de la vision et du langage.

Produit OrdinaireProductivitéMultimodalGrand modèle linguistique
InternVL2_5-1B-MPO est un grand modèle linguistique multi-modal (MLLM) construit sur InternVL2.5 et l'optimisation par préférences mixtes (MPO), démontrant des performances globales supérieures. Ce modèle intègre InternViT, pré-entraîné de manière incrémentale, avec divers grands modèles linguistiques (LLM) pré-entraînés, notamment InternLM 2.5 et Qwen 2.5, utilisant un projecteur MLP initialisé aléatoirement. InternVL2_5-MPO conserve l'architecture « ViT-MLP-LLM » identique à celle d'InternVL 2.5 et de ses prédécesseurs, et introduit la prise en charge des données multi-images et vidéo. Ce modèle excelle dans les tâches multimodales, capable de gérer diverses tâches de vision-langage, notamment la description d'images et la question-réponse visuelle.
Ouvrir le site Web

InternVL2_5-1B-MPO Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

InternVL2_5-1B-MPO Tendance des visites

InternVL2_5-1B-MPO Distribution géographique des visites

InternVL2_5-1B-MPO Sources de trafic

InternVL2_5-1B-MPO Alternatives