Récemment, le laboratoire IA de Shanghai a annoncé le lancement du modèle InternVL2.5 de Shusheng · Wanxiang. Ce modèle linguistique de grande taille multimodale open source, grâce à ses performances exceptionnelles, est devenu le premier modèle open source à dépasser un taux de précision de 70 % sur le benchmark de compréhension multimodale (MMMU), rivalisant avec des modèles commerciaux tels que GPT-4o et Claude-3.5-Sonnet.

Le modèle InternVL2.5 a réalisé une amélioration de 3,7 points de pourcentage grâce à la technique d’inférence par raisonnement en chaîne (CoT), démontrant un fort potentiel d’extensibilité en temps de test. Ce modèle, issu du développement d’InternVL2.0, améliore encore ses performances grâce à des stratégies d’entraînement et de test renforcées et à une meilleure qualité des données. Des recherches approfondies ont été menées sur l’encodeur visuel, le modèle linguistique, la taille des données et la configuration du temps de test afin d’explorer la relation entre l’échelle du modèle et ses performances.

Capture d’écran WeChat_20241210081428.png

InternVL2.5 a démontré des performances compétitives dans plusieurs tests de référence, notamment dans le raisonnement multidisciplinaire, la compréhension de documents, la compréhension d’images/vidéos multiples, la compréhension du monde réel, la détection d’hallucinations multimodales, la visualisation au sol, les capacités multilingues et le traitement du langage pur. Cette réalisation établit non seulement une nouvelle norme pour la communauté open source dans le développement et l’application de systèmes IA multimodaux, mais ouvre également de nouvelles possibilités pour la recherche et les applications dans le domaine de l’intelligence artificielle.

InternVL2.5 conserve la même architecture de modèle que ses prédécesseurs, InternVL1.5 et InternVL2.0, suivant le paradigme « ViT-MLP-LLM », et intègre le nouveau pré-entraînement incrémental InternViT-6B ou InternViT-300M avec divers LLM pré-entraînés de tailles et de types différents, en utilisant un projecteur MLP à deux couches initialisé aléatoirement. Pour améliorer l’extensibilité du traitement haute résolution, l’équipe de recherche a appliqué une opération de désordre de pixels, réduisant le nombre de jetons visuels de moitié.

La nature open source du modèle signifie que les chercheurs et les développeurs peuvent accéder et utiliser librement InternVL2.5, ce qui stimulera considérablement le développement et l’innovation des technologies IA multimodales.

Lien du modèle :

https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942