InternVL2-8B-MPO est un grand modèle linguistique multimodal (MLLM) qui améliore les capacités de raisonnement multimodal grâce à l'intégration d'un processus d'optimisation des préférences mixtes (MPO). Ce modèle intègre un pipeline automatisé de construction de données de préférence et a permis la création de MMPR, un vaste ensemble de données de préférence de raisonnement multimodal. Basé sur InternVL2-8B et affiné avec l'ensemble de données MMPR, InternVL2-8B-MPO démontre des capacités de raisonnement multimodal accrues et réduit les phénomènes d'hallucinations. Il a obtenu un taux de précision de 67,0 % sur MathVista, soit une amélioration de 8,7 points par rapport à InternVL2-8B, et des performances proches de celles d'InternVL2-76B, un modèle dix fois plus grand.