Grâce aux grands modèles linguistiques multimodaux (MLLM), les tâches liées aux images et aux vidéos ont connu des progrès révolutionnaires, notamment la question-réponse visuelle, la génération de narrations et l'édition interactive. Cependant, la compréhension fine du contenu vidéo reste un défi majeur. Ce défi implique des tâches telles que la segmentation au niveau des pixels, le suivi avec descriptions linguistiques et la question-réponse visuelle sur des invites vidéo spécifiques.

image.png

Bien que les modèles de perception vidéo les plus avancés actuels excellent dans les tâches de segmentation et de suivi, ils présentent encore des lacunes en matière de compréhension linguistique ouverte et de capacités conversationnelles. De plus, les MLLM vidéo affichent de bonnes performances dans les tâches de compréhension vidéo et de question-réponse, mais restent en deçà pour le traitement des tâches perceptives et des invites visuelles.

Les solutions existantes sont principalement de deux types : les grands modèles linguistiques multimodaux (MLLM) et les systèmes de segmentation par référence. Les MLLM, initialement axés sur l'amélioration des méthodes de fusion multimodale et des extracteurs de caractéristiques, ont progressivement évolué vers des cadres d'ajustement par instructions sur les LLM, comme LLaVA. Récemment, les chercheurs ont tenté d'unifier l'analyse d'images, de vidéos et de plusieurs images dans un cadre unique, comme LLaVA-OneVision. Parallèlement, les systèmes de segmentation par référence ont également connu une évolution, passant de modules de fusion de base à l'intégration de la segmentation et du suivi. Cependant, ces solutions présentent encore des lacunes en matière d'intégration complète des capacités perceptives et de compréhension du langage.

Des chercheurs de l'UC Merced, de l'équipe ByteDance Seed, de l'Université de Wuhan et de l'Université de Pékin ont proposé Sa2VA, un modèle unifié révolutionnaire visant à permettre une compréhension fondamentale dense des images et des vidéos. Ce modèle prend en charge un large éventail de tâches image et vidéo en minimisant l'ajustement par instructions unique, surmontant ainsi les limites des modèles linguistiques multimodaux existants.

Sa2VA intègre de manière innovante SAM-2 et LLaVA, unifiant le texte, les images et les vidéos dans un espace de jetons LLM partagé. De plus, les chercheurs ont introduit un vaste jeu de données d'annotation automatique appelé Ref-SAV, comprenant plus de 72 000 représentations d'objets dans des scènes vidéo complexes et 2 000 objets vidéo vérifiés manuellement pour garantir des capacités de référence robustes.

L'architecture de Sa2VA se compose principalement de deux parties : un modèle de type LLaVA et SAM-2, utilisant une conception découplée novatrice. Le composant de type LLaVA comprend un encodeur visuel traitant les images et les vidéos, une couche de projection visuelle et un LLM pour la prédiction des jetons textuels. Le système utilise une approche de découplage unique qui permet à SAM-2 de fonctionner parallèlement au modèle LLaVA pré-entraîné sans échange direct de jetons, ce qui maintient l'efficacité du calcul et permet une connectivité plug-and-play avec divers MLLM pré-entraînés.

Les résultats de la recherche montrent que Sa2VA obtient des résultats de pointe dans les tâches de segmentation par référence, son modèle Sa2VA-8B atteignant des scores cIoU de 81,6, 76,2 et 78,9 respectivement sur RefCOCO, RefCOCO+ et RefCOCOg, surpassant ainsi les systèmes précédents tels que GLaMM-7B. En termes de capacités conversationnelles, Sa2VA a obtenu d'excellents résultats de 2128, 81,6 et 75,1 respectivement sur MME, MMbench et SEED-Bench.

De plus, les performances de Sa2VA dans les tests de référence vidéo ont également considérablement dépassé les précédents modèles de pointe VISA-13B, démontrant son efficacité et son efficience dans les tâches de compréhension d'images et de vidéos.

Article : https://arxiv.org/abs/2501.04001

Modèle : https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093

Points clés :

🌟 Sa2VA est un nouveau cadre d'IA unifié qui permet une compréhension approfondie des images et des vidéos, surmontant les limites des modèles multimodaux existants.

📊 Ce modèle a obtenu des résultats de pointe dans plusieurs tests de référence, notamment la segmentation par référence et les capacités conversationnelles, démontrant ainsi ses performances exceptionnelles.

🧠 La conception de Sa2VA intègre efficacement les capacités de compréhension visuelle et linguistique grâce à une approche de découplage, prenant en charge un large éventail de tâches image et vidéo.