ChinaZ.com le 17 juin 2024 : Récemment, ZhiPu, l'Université Tsinghua et l'Université de Pékin ont collaboré pour lancer LVBench, un projet de référence pour la compréhension de longues vidéos. Bien que les grands modèles linguistiques multimodaux actuels aient fait des progrès significatifs dans la compréhension de courtes vidéos, ils restent confrontés à des défis lorsqu'il s'agit de traiter des longues vidéos de plusieurs heures. LVBench a été créé pour combler cette lacune.
Ce projet comprend des heures de données de questions-réponses réparties en 6 catégories principales et 21 sous-catégories, couvrant différents types de contenus vidéo provenant de sources publiques, tels que des séries télévisées, des retransmissions sportives et des enregistrements de surveillance quotidiens. Ces données sont toutes annotées de haute qualité et des questions difficiles ont été sélectionnées à l'aide de modèles linguistiques de grande taille (LLM). LVBench couvre plusieurs tâches, notamment le résumé vidéo, la détection d'événements, la reconnaissance des personnages et la compréhension de la scène.
Le lancement de la référence LVBench vise non seulement à tester les capacités de raisonnement et de fonctionnement des modèles dans le contexte des longues vidéos, mais aussi à stimuler les avancées et l'innovation technologique. Il apportera une nouvelle impulsion aux applications nécessitant une prise de décision incarnée, des critiques cinématographiques approfondies et des commentaires sportifs professionnels dans le domaine des longues vidéos.
De nombreux organismes de recherche travaillent déjà sur l'ensemble de données LVBench. En construisant des grands modèles pour les tâches liées aux longues vidéos, ils repoussent progressivement les limites de l'intelligence artificielle dans la compréhension des flux d'informations à long terme, insufflant une nouvelle vitalité à l'exploration continue des domaines de la compréhension vidéo et de l'apprentissage multi-modal.
github:https://github.com/THUDM/LVBench
Projet:https://lvbench.github.io
Article:https://arxiv.org/abs/2406.08035