Actuellement, les grands modèles de langage multimodaux (MLLM) ont réalisé des progrès significatifs dans le domaine de la compréhension vidéo, mais le traitement de vidéos ultra-longues reste un défi. En effet, les MLLM ont généralement du mal à gérer des milliers de marqueurs visuels dépassant leur longueur de contexte maximale et sont sensibles à l'atténuation de l'information due à l'agrégation des marqueurs. De plus, le grand nombre de marqueurs vidéo entraîne des coûts de calcul élevés.
Pour résoudre ces problèmes, l'Institut de recherche sur l'intelligence artificielle (AIRS), en collaboration avec plusieurs universités chinoises (Université Jiao Tong de Shanghai, Université du Peuple de Chine, Université de Pékin et Université des postes et télécommunications de Pékin), a proposé Video-XL, un modèle visuel linguistique ultra-long conçu pour une compréhension vidéo efficace à l'échelle de l'heure. Le cœur de Video-XL réside dans la technique de « résumé latent du contexte visuel », qui exploite les capacités inhérentes de modélisation contextuelle des LLM pour compresser efficacement les longues représentations visuelles sous une forme plus compacte.
En termes simples, il s'agit de compresser le contenu vidéo en une forme plus concise, comme réduire une vache entière à un bol d'essence de bœuf, facilitant ainsi la digestion et l'assimilation par le modèle.
Cette technique de compression améliore non seulement l'efficacité, mais préserve également efficacement les informations clés de la vidéo. Il faut savoir que les longues vidéos contiennent souvent une grande quantité d'informations redondantes, comme un long discours fastidieux et répétitif. Video-XL permet d'éliminer précisément ces informations inutiles, ne conservant que l'essentiel, ce qui garantit que le modèle ne se perd pas lors de la compréhension du contenu des longues vidéos.
Video-XL n'est pas seulement théoriquement performant, mais aussi extrêmement puissant en pratique. Dans plusieurs tests de référence de compréhension de vidéos longues, Video-XL a obtenu des résultats de pointe, notamment dans le test VNBench, où sa précision dépasse de près de 10 % celle des meilleures méthodes existantes.
Plus impressionnant encore, Video-XL réalise un équilibre remarquable entre efficacité et performance. Il peut traiter des vidéos de 2048 images sur un seul GPU de 80 Go, tout en maintenant une précision de près de 95 % dans l'évaluation « recherche d'une aiguille dans une botte de foin ».
Les perspectives d'application de Video-XL sont également très vastes. Au-delà de la compréhension des vidéos longues classiques, il peut également accomplir des tâches spécifiques telles que la création de résumés de films, la détection d'anomalies de surveillance et l'identification d'insertions publicitaires.
Cela signifie qu'à l'avenir, il ne sera plus nécessaire de supporter de longs métrages ; Video-XL pourra générer un résumé concis, faisant gagner du temps et des efforts. Ou encore, il pourra surveiller les images de surveillance et identifier automatiquement les événements anormaux, avec une efficacité bien supérieure à la surveillance humaine.
Adresse du projet : https://github.com/VectorSpaceLab/Video-XL
Article : https://arxiv.org/pdf/2409.14485