InternVL2_5-4B
Modèle linguistique large multi-modal, fusionnant la compréhension visuelle et linguistique.
Produit OrdinaireImageMultimodalGrand modèle linguistique
InternVL2_5-4B est un modèle linguistique large multi-modal (MLLM) avancé. Il s'appuie sur InternVL 2.0 en maintenant l'architecture du modèle principal, tout en améliorant significativement les stratégies d'entraînement et de test, ainsi que la qualité des données. Ce modèle excelle dans le traitement des images et des tâches texte-à-texte, notamment dans le raisonnement multi-modal, la résolution de problèmes mathématiques, l'OCR, la compréhension de graphiques et de documents. En tant que modèle open source, il offre aux chercheurs et développeurs un outil puissant pour explorer et construire des applications intelligentes basées sur la vision et le langage.
InternVL2_5-4B Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44