Récemment, l'équipe de recherche Salesforce AI a lancé un nouveau modèle linguistique multimodal : BLIP-3-Video. Avec l'augmentation rapide du contenu vidéo, le traitement efficace des données vidéo est devenu un problème urgent. Ce modèle vise à améliorer l'efficacité et les performances de la compréhension vidéo, et s'applique à divers secteurs, de la conduite autonome aux divertissements.
Les modèles traditionnels de compréhension vidéo traitent souvent les vidéos image par image, générant ainsi une grande quantité d'informations visuelles. Ce processus consomme non seulement d'énormes ressources de calcul, mais limite également considérablement la capacité de traitement des longues vidéos. Avec l'augmentation constante du volume de données vidéo, cette méthode devient de plus en plus inefficace. Il est donc crucial de trouver une solution capable de capturer les informations clés des vidéos tout en réduisant la charge de calcul.
À cet égard, BLIP-3-Video se montre particulièrement performant. Le modèle, grâce à l'introduction d'un « encodeur temporel », réduit avec succès le nombre d'informations visuelles nécessaires dans une vidéo à 16 à 32 marqueurs visuels. Cette conception innovante améliore considérablement l'efficacité du calcul, permettant au modèle d'effectuer des tâches vidéo complexes à moindre coût. Cet encodeur temporel utilise un mécanisme d'agrégation d'attention spatio-temporelle apprenant, capable d'extraire les informations les plus importantes de chaque image et de les synthétiser en un ensemble compact de marqueurs visuels.
Les performances de BLIP-3-Video sont également exceptionnelles. En comparaison avec d'autres grands modèles, la recherche a révélé que le modèle atteint une précision comparable aux modèles de pointe dans les tâches de questions-réponses sur vidéo. Par exemple, le modèle Tarsier-34B nécessite 4608 marqueurs pour traiter une vidéo de 8 images, tandis que BLIP-3-Video n'en nécessite que 32 pour atteindre un score de référence MSVD-QA de 77,7 %. Cela montre que BLIP-3-Video réduit considérablement la consommation de ressources tout en maintenant des performances élevées.
De plus, les performances de BLIP-3-Video dans les tâches de questions-réponses à choix multiples sont également remarquables. Dans l'ensemble de données NExT-QA, le modèle a obtenu un score élevé de 77,1 %, et dans l'ensemble de données TGIF-QA, il a également atteint une précision de 77,1 %. Ces données montrent l'efficacité de BLIP-3-Video dans le traitement de problèmes vidéo complexes.
Grâce à son encodeur temporel innovant, BLIP-3-Video ouvre de nouvelles possibilités dans le domaine du traitement vidéo. Le lancement de ce modèle améliore non seulement l'efficacité de la compréhension vidéo, mais offre également davantage de possibilités pour les applications vidéo futures.
Accès au projet : https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
Points clés :
- 🚀 ** Nouveau modèle publié ** : Salesforce AI Research lance BLIP-3-Video, un modèle linguistique multimodal axé sur le traitement vidéo.
- ⚡ ** Traitement efficace ** : L'utilisation d'un encodeur temporel réduit considérablement le nombre de marqueurs visuels nécessaires, améliorant ainsi considérablement l'efficacité du calcul.
- 📈 ** Performances supérieures ** : Performances exceptionnelles dans les tâches de questions-réponses sur vidéo, maintien d'une précision élevée tout en réduisant la consommation de ressources.