InternVL 2.5

Série de grands modèles linguistiques multimodaux open source

Produit OrdinaireProductivitéMultimodalGrand modèle linguistique
InternVL 2.5 est une série de grands modèles linguistiques multimodaux avancés, basée sur InternVL 2.0. Tout en conservant l'architecture de base du modèle, elle intègre des améliorations significatives en matière de stratégies d'entraînement et de test, ainsi que de qualité des données. Ce modèle explore en profondeur la relation entre l'extension du modèle et ses performances, en examinant systématiquement les tendances de performance de l'encodeur visuel, du modèle linguistique, de la taille des jeux de données et de la configuration au moment des tests. Grâce à une évaluation approfondie sur de vastes benchmarks, incluant le raisonnement multidisciplinaire, la compréhension de documents, la compréhension d'images/vidéos multiples, la compréhension du monde réel, la détection d'hallucinations multimodales, la localisation visuelle, les capacités multilingues et le traitement du langage naturel, InternVL 2.5 affiche une compétitivité comparable à celle de modèles commerciaux de pointe tels que GPT-4o et Claude-3.5-Sonnet. Notamment, il s'agit du premier MLLM open source à dépasser 70 % sur le benchmark MMMU, réalisant une amélioration de 3,7 points de pourcentage grâce au raisonnement en chaîne (CoT) et démontrant un fort potentiel d'extensibilité au moment des tests.
Ouvrir le site Web

InternVL 2.5 Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

InternVL 2.5 Tendance des visites

InternVL 2.5 Distribution géographique des visites

InternVL 2.5 Sources de trafic

InternVL 2.5 Alternatives