Le 21 février 2025, l'équipe d'internationalisation d'Alibaba a annoncé la publication en open source de sa nouvelle série de modèles linguistiques multimodaux de grande taille, Ovis2.
Ovis2 est la dernière version de la série de modèles Ovis développée par l'équipe d'internationalisation d'Alibaba. Par rapport à la version précédente 1.6, Ovis2 présente des améliorations significatives en termes de construction des données et de méthodes d'entraînement. Il renforce non seulement la densité des capacités des modèles de petite taille, mais améliore également considérablement les capacités de raisonnement par chaîne de pensée (CoT) grâce à l'ajustement fin par instructions et à l'apprentissage par préférence. De plus, Ovis2 intègre des capacités de traitement vidéo et multi-images, et améliore ses capacités multilingues et de reconnaissance optique de caractères (OCR) dans des scénarios complexes, augmentant ainsi considérablement son utilité.
La série Ovis2 publiée en open source comprend six versions : 1B, 2B, 4B, 8B, 16B et 34B. Chaque version atteint le niveau de pointe (SOTA) pour sa taille de paramètres. Ovis2-34B, en particulier, a démontré des performances exceptionnelles sur le classement OpenCompass. Sur le classement des capacités multimodales générales, Ovis2-34B se classe deuxième parmi tous les modèles open source, surpassant de nombreux modèles phares open source de 70B de paramètres avec moins de la moitié de la taille. Sur le classement du raisonnement mathématique multimodal, Ovis2-34B occupe la première place parmi tous les modèles open source, les autres versions affichant également d'excellentes capacités de raisonnement. Ces résultats prouvent non seulement l'efficacité de l'architecture Ovis, mais mettent également en lumière l'énorme potentiel de la communauté open source dans le développement de modèles multimodaux de grande taille.
La conception de l'architecture d'Ovis2 résout habilement la limitation des différences de stratégies d'intégration inter-modalités. Il se compose de trois composants clés : un tokeniseur visuel, une table d'intégration visuelle et un modèle linguistique de grande taille (LLM). Le tokeniseur visuel divise l'image d'entrée en plusieurs blocs d'images, extrait les caractéristiques à l'aide d'un transformateur visuel et les fait correspondre à des « mots visuels » via une couche de tête visuelle, obtenant ainsi des jetons visuels probabilistes. La table d'intégration visuelle stocke les vecteurs d'intégration correspondant à chaque mot visuel, tandis que le LLM traite les vecteurs d'intégration visuelle et textuelle concaténés pour générer une sortie textuelle et accomplir des tâches multimodales.
En termes de stratégie d'entraînement, Ovis2 utilise une méthode d'entraînement en quatre phases pour exploiter pleinement ses capacités de compréhension multimodale. La première phase consiste à figer la plupart des paramètres du LLM et du ViT pour entraîner le module visuel et apprendre la conversion des caractéristiques visuelles en intégrations. La deuxième phase améliore encore les capacités d'extraction de caractéristiques du module visuel, améliorant la compréhension des images haute résolution, les capacités multilingues et l'OCR. La troisième phase aligne les intégrations visuelles et le format de dialogue du LLM via des données de légende visuelle sous forme de dialogue. La quatrième phase consiste en un entraînement par instructions multimodales et un apprentissage par préférence, améliorant encore le respect des instructions de l'utilisateur et la qualité de la sortie dans différents modes.
Pour améliorer la compréhension vidéo, Ovis2 a développé un algorithme innovant de sélection d'images clés. Cet algorithme sélectionne les images vidéo les plus utiles en fonction de la corrélation entre les images et le texte, de la diversité des combinaisons entre les images et de la séquence des images. Grâce au calcul de similarité conditionnelle de haute dimension, au processus ponctuel déterminantal (DPP) et au processus de décision de Markov (MDP), l'algorithme peut sélectionner efficacement les images clés dans un contexte visuel limité, améliorant ainsi les performances de la compréhension vidéo.
La série de modèles Ovis2 se distingue particulièrement par ses performances sur le classement multimodal OpenCompass. Les modèles de différentes tailles ont obtenu des résultats SOTA sur plusieurs benchmarks. Par exemple, Ovis2-34B se classe deuxième et premier respectivement sur les classements des capacités multimodales générales et du raisonnement mathématique, démontrant ainsi ses puissantes performances. De plus, Ovis2 a obtenu des performances de pointe sur le classement de la compréhension vidéo, prouvant encore son avantage dans les tâches multimodales.
L'équipe d'internationalisation d'Alibaba a déclaré que l'open source est un moteur essentiel du progrès des technologies de l'IA. En partageant publiquement les résultats de ses recherches sur Ovis2, l'équipe espère explorer les avancées des modèles multimodaux de grande taille avec les développeurs du monde entier et stimuler de nouvelles applications innovantes. Actuellement, le code d'Ovis2 est disponible en open source sur GitHub, les modèles peuvent être obtenus sur les plateformes Hugging Face et Modelscope, et une démo en ligne est disponible pour les utilisateurs. L'article de recherche correspondant a également été publié sur arXiv pour référence des développeurs et des chercheurs.
Code : https://github.com/AIDC-AI/Ovis
Modèle (Huggingface) : https://huggingface.co/AIDC-AI/Ovis2-34B
Modèle (Modelscope) : https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45
Démo : https://huggingface.co/spaces/AIDC-AI/Ovis2-16B
arXiv : https://arxiv.org/abs/2405.20797