InternVL 2.5
Série de grands modèles linguistiques multimodaux open source
Produit OrdinaireProductivitéMultimodalGrand modèle linguistique
InternVL 2.5 est une série de grands modèles linguistiques multimodaux avancés, basée sur InternVL 2.0. Tout en conservant l'architecture de base du modèle, elle intègre des améliorations significatives en matière de stratégies d'entraînement et de test, ainsi que de qualité des données. Ce modèle explore en profondeur la relation entre l'extension du modèle et ses performances, en examinant systématiquement les tendances de performance de l'encodeur visuel, du modèle linguistique, de la taille des jeux de données et de la configuration au moment des tests. Grâce à une évaluation approfondie sur de vastes benchmarks, incluant le raisonnement multidisciplinaire, la compréhension de documents, la compréhension d'images/vidéos multiples, la compréhension du monde réel, la détection d'hallucinations multimodales, la localisation visuelle, les capacités multilingues et le traitement du langage naturel, InternVL 2.5 affiche une compétitivité comparable à celle de modèles commerciaux de pointe tels que GPT-4o et Claude-3.5-Sonnet. Notamment, il s'agit du premier MLLM open source à dépasser 70 % sur le benchmark MMMU, réalisant une amélioration de 3,7 points de pourcentage grâce au raisonnement en chaîne (CoT) et démontrant un fort potentiel d'extensibilité au moment des tests.
InternVL 2.5 Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44