InternViT-6B-448px-V2_5
Modèle de vision amélioré basé sur InternViT-6B-448px-V1-5
Produit OrdinaireImageModèle de visionExtraction de caractéristiques
InternViT-6B-448px-V2_5 est un modèle de vision basé sur InternViT-6B-448px-V1-5. Il améliore la capacité de l'encodeur visuel à extraire des caractéristiques visuelles grâce à l'apprentissage incrémental ViT et à la perte NTP (phase 1.5). Ces améliorations sont particulièrement notables dans les domaines sous-représentés des grands ensembles de données, tels que les données OCR multilingues et les graphiques mathématiques. Ce modèle fait partie de la série InternVL 2.5 et conserve l'architecture "ViT-MLP-LLM" de ses prédécesseurs. Il intègre un InternViT pré-entraîné incrémentalement et divers LLMs pré-entraînés, notamment InternLM 2.5 et Qwen 2.5, utilisant un projecteur MLP initialisé aléatoirement.
InternViT-6B-448px-V2_5 Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44