Les modèles traditionnels de compréhension vidéo sont confrontés à de nombreux défis lors du traitement de longues vidéos, notamment la compréhension du contexte complexe qu'elles impliquent. Bien que de nombreuses recherches se soient attachées à améliorer la capacité de compréhension vidéo, il est toujours difficile de surmonter efficacement les problèmes d'efficacité de l'entraînement et de l'inférence. Pour résoudre ces problèmes, l'équipe de recherche a utilisé la technologie HiCo pour compresser les parties redondantes des informations vidéo, réduisant ainsi considérablement les besoins en calcul tout en conservant les informations clés.

image.png

Plus précisément, HiCo effectue une compression hiérarchique de la vidéo en la divisant en courts segments, ce qui réduit le nombre de jetons à traiter. Cette méthode non seulement réduit les exigences du modèle en termes de ressources de calcul, mais améliore également la largeur de la fenêtre contextuelle, renforçant ainsi les capacités de traitement du modèle. De plus, l'équipe de recherche a utilisé la corrélation sémantique avec les requêtes des utilisateurs pour réduire davantage le nombre de jetons vidéo.

Dans l'implémentation concrète du traitement de longues vidéos, « VideoChat-Flash » utilise une approche d'apprentissage en plusieurs étapes, passant de courtes vidéos à de longues vidéos. Les chercheurs ont d'abord utilisé des courtes vidéos et leurs annotations correspondantes pour un réglage fin supervisé, puis ont progressivement introduit de longues vidéos pour l'entraînement, réalisant ainsi une compréhension complète des données de longueur mixte. Cette méthode non seulement améliore les capacités de perception visuelle du modèle, mais fournit également un support de données riche pour le traitement de longues vidéos. L'équipe de recherche a construit un vaste ensemble de données contenant 300 000 heures de vidéo et 200 millions de mots d'annotations.

De plus, l'étude propose une tâche améliorée de « l'aiguille dans la botte de foin », pour la configuration vidéo à sauts multiples. Grâce à ce nouveau benchmark, le modèle doit non seulement trouver une seule image cible dans la vidéo, mais aussi comprendre plusieurs séquences d'images interreliées, améliorant ainsi sa capacité de compréhension du contexte.

Les résultats expérimentaux montrent que la méthode proposée réduit les calculs de deux ordres de grandeur, affichant d'excellentes performances, notamment dans les tests de référence sur les courtes et longues vidéos, devenant ainsi un leader dans le domaine de la compréhension des courtes vidéos. Simultanément, ce modèle surpasse les modèles open source existants en matière de compréhension de longues vidéos, démontrant une puissante capacité de localisation temporelle.

Article : https://arxiv.org/abs/2501.00574

Points clés :

🌟 Les chercheurs ont proposé la technique de compression hiérarchique des marqueurs vidéo HiCo, réduisant considérablement les besoins en calcul pour le traitement de longues vidéos.

📹 Le système « VideoChat-Flash » utilise une méthode d'apprentissage en plusieurs étapes, combinant courtes et longues vidéos pour l'entraînement, améliorant ainsi les capacités de compréhension du modèle.

🔍 Les résultats expérimentaux montrent que cette méthode atteint de nouveaux niveaux de performance dans plusieurs tests de référence, devenant un modèle de pointe pour le traitement de longues vidéos.