InternVL2_5-1B-MPO
Modèle linguistique de grande taille multi-modal améliorant la compréhension globale de la vision et du langage.
Produit OrdinaireProductivitéMultimodalGrand modèle linguistique
InternVL2_5-1B-MPO est un grand modèle linguistique multi-modal (MLLM) construit sur InternVL2.5 et l'optimisation par préférences mixtes (MPO), démontrant des performances globales supérieures. Ce modèle intègre InternViT, pré-entraîné de manière incrémentale, avec divers grands modèles linguistiques (LLM) pré-entraînés, notamment InternLM 2.5 et Qwen 2.5, utilisant un projecteur MLP initialisé aléatoirement. InternVL2_5-MPO conserve l'architecture « ViT-MLP-LLM » identique à celle d'InternVL 2.5 et de ses prédécesseurs, et introduit la prise en charge des données multi-images et vidéo. Ce modèle excelle dans les tâches multimodales, capable de gérer diverses tâches de vision-langage, notamment la description d'images et la question-réponse visuelle.
InternVL2_5-1B-MPO Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44