InternVL2_5-8B-MPO-AWQ
Modèle linguistique multimodal de grande taille, améliorant l'interaction entre la vision et le langage.
Produit OrdinaireImageMultimodalModèle linguistique de grande taille
InternVL2_5-8B-MPO-AWQ est un modèle linguistique multimodal de grande taille lancé par OpenGVLab. Il est basé sur la série InternVL2.5 et utilise la technique d'optimisation des préférences mixtes (Mixed Preference Optimization, MPO). Ce modèle présente des performances exceptionnelles en matière de compréhension et de génération visuelle et linguistique, notamment dans les tâches multimodales. En combinant InternViT (partie visuelle) et InternLM ou Qwen (partie linguistique), et en utilisant un projecteur MLP initialisé de manière aléatoire pour un pré-entraînement incrémental, il réalise une compréhension et une interaction approfondies entre les images et les textes. L'importance de cette technologie réside dans sa capacité à traiter divers types de données, notamment les images simples, les images multiples et les données vidéo, offrant ainsi de nouvelles solutions dans le domaine de l'intelligence artificielle multimodale.
InternVL2_5-8B-MPO-AWQ Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44