Récemment, l'équipe Meta AI a présenté LongVU, un nouveau mécanisme de compression spatio-temporelle adaptative visant à améliorer la compréhension du langage dans les longues vidéos. Les grands modèles linguistiques multimodaux (MLLM) traditionnels sont confrontés à des limitations de longueur de contexte lors du traitement de longues vidéos, et LongVU a été conçu pour résoudre ce problème.

LongVU fonctionne principalement en utilisant efficacement la longueur du contexte grâce à des méthodes telles que le filtrage des images répétitives et la compression des jetons inter-images, permettant ainsi de réduire les informations redondantes dans la vidéo tout en préservant les détails visuels.

image.png

Plus précisément, l'équipe utilise les caractéristiques de DINOv2 pour éliminer les images redondantes très similaires. Ensuite, grâce à une requête intermodale guidée par le texte, une réduction sélective des caractéristiques d'image est réalisée.

De plus, LongVU a mis au point une stratégie de compression innovante consistant à compresser les jetons spatiaux en fonction des dépendances temporelles entre les images. Cette stratégie permet à LongVU de traiter efficacement un grand nombre d'images dans une longueur de contexte limitée, avec une perte d'informations visuelles quasi nulle.

Dans divers tests de référence de compréhension vidéo, LongVU a surpassé les autres méthodes existantes, notamment dans les tâches nécessitant la compréhension de vidéos d'une heure, telles que VideoMME et MLVU. Même avec des LLM aux ressources limitées, LongVU affiche des performances exceptionnelles avec un modèle de taille réduite.

Dans les exemples d'application de LongVU, les utilisateurs peuvent obtenir une description détaillée de la vidéo en posant des questions simples. Par exemple, si un utilisateur demande "Quelle est la situation dans cette vidéo ?", LongVU peut décrire précisément la scène, les personnages et leurs interactions. Que ce soit pour des questions simples sur les objets présents dans la vidéo ou pour des descriptions d'intrigue complexes, LongVU fournit des réponses rapides et précises.

Exemple officiel :

Invite de l'utilisateur : Veuillez fournir une description détaillée de la vidéo.

Réponse de LongVU : La vidéo commence par une scène se déroulant dans une ville futuriste la nuit, où un robot humanoïde se tient au premier plan, dos à la caméra, sur fond de bâtiments illuminés et d'un hélicoptère en vol. Le décor est caractérisé par un mélange d'éléments modernes et cyberpunk, avec des enseignes au néon et une rue mouillée reflétant les lumières de la ville. Au fur et à mesure que la vidéo progresse, le robot reste immobile, l'hélicoptère se rapprochant, planant finalement au-dessus de la rue, ce qui indique une possible interaction ou un événement se déroulant entre le robot et l'hélicoptère.

La scène se déplace ensuite vers un intérieur, probablement un atelier ou un garage, rempli de divers équipements et machines électroniques. Le robot est maintenant au premier plan, face à la caméra, avec une personne en arrière-plan, suggérant une progression narrative. L'environnement est encombré, l'éclairage projetant une teinte bleue sur la scène, soulignant le thème technologique.

Au fur et à mesure que la vidéo continue, l'angle de caméra change pour montrer le robot par derrière, la personne en arrière-plan étant maintenant plus visible, indiquant un mouvement. Le décor de l'atelier reste cohérent, avec l'encombrement et les équipements électroniques inchangés. L'éclairage et la palette de couleurs continuent de souligner l'ambiance technologique.

La perspective passe ensuite à une vue de côté du robot, révélant davantage sa structure et l'environnement encombré de l'atelier. La personne en arrière-plan est maintenant plus proche du robot, suggérant une interaction ou un mouvement vers lui. L'éclairage et la palette de couleurs restent cohérents, maintenant l'atmosphère technologique.

Enfin, la caméra zoome sur le robot, se concentrant sur le haut de son corps et les détails complexes de ses composants internes. L'environnement encombré de l'atelier devient moins visible, l'éclairage projetant une teinte bleue sur la scène, soulignant le thème technologique. Le gros plan de la caméra met en évidence le design du robot et la complexité de ses mécanismes internes, suggérant un accent narratif sur le fonctionnement interne du robot ou son rôle dans le cadre technologique.

La croissance rapide du contenu vidéo longue durée nécessite des méthodes de traitement plus efficaces. Le lancement de LongVU ouvre sans aucun doute de nouvelles possibilités dans le domaine de la compréhension multimodale.

Accès au projet : https://vision-cair.github.io/LongVU/

Points clés :

1. 📽️ LongVU est un nouveau mécanisme de compression spatio-temporelle adaptative visant à améliorer la compréhension du langage dans les longues vidéos.

2. 🔍 Cette technologie utilise les caractéristiques de DINOv2 pour éliminer les images redondantes et réalise une compression sélective des caractéristiques grâce à une requête intermodale.

3. 🚀 LongVU a obtenu d'excellents résultats dans divers tests de référence de compréhension vidéo, surpassant les autres méthodes, notamment dans les tâches de compréhension de longues vidéos.