Dans le monde de l'IA, faire comprendre des vidéos à une machine est beaucoup plus difficile que de lui faire comprendre des images. Les vidéos sont dynamiques, contiennent du son, des mouvements et des scènes complexes. Auparavant, l'IA comprenait les vidéos comme un livre écrit dans une langue inconnue, souvent perdue.
Mais l'arrivée de VideoPrism pourrait changer la donne. Développé par l'équipe de recherche de Google, il s'agit d'un encodeur vidéo capable d'atteindre des performances de pointe sur de nombreuses tâches de compréhension vidéo avec un seul modèle. Que ce soit pour classer, localiser des éléments dans une vidéo, générer des sous-titres ou même répondre à des questions sur son contenu, VideoPrism relève le défi avec aisance.
Comment entraîner VideoPrism ?
Entraîner VideoPrism, c'est comme apprendre à un enfant à observer le monde. Tout d'abord, il faut lui montrer une grande variété de vidéos, de la vie quotidienne aux observations scientifiques. Ensuite, il faut l'entraîner avec des paires vidéo-sous-titres de « haute qualité » et des textes parallèles bruitées (comme les transcriptions de la reconnaissance vocale automatique).
Méthode de pré-entraînement
Données : VideoPrism a utilisé 36 millions de paires vidéo-sous-titres de haute qualité et 5820 millions de segments vidéo avec des textes parallèles bruitées.
Architecture du modèle : Basée sur le transformateur visuel standard (ViT), avec une conception factorisée dans l'espace et le temps.
Algorithme d'entraînement : Comprend deux phases : l'entraînement contrastif vidéo-texte et la modélisation vidéo masquée.
Pendant l'entraînement, VideoPrism passe par deux phases. Dans la première phase, il apprend les relations entre la vidéo et le texte grâce à l'apprentissage contrastif et à la distillation globale-locale. Dans la seconde phase, il améliore sa compréhension du contenu vidéo grâce à la modélisation vidéo masquée.
Les chercheurs ont testé VideoPrism sur plusieurs tâches de compréhension vidéo, et les résultats sont impressionnants. Sur 33 tests de référence, VideoPrism a atteint des performances de pointe sur 30 d'entre eux. Que ce soit pour répondre à des questions sur des vidéos en ligne ou pour des tâches de vision par ordinateur dans le domaine scientifique, VideoPrism a démontré de puissantes capacités.
L'arrivée de VideoPrism ouvre de nouvelles perspectives pour la compréhension vidéo par l'IA. Il peut non seulement aider l'IA à mieux comprendre le contenu vidéo, mais aussi jouer un rôle important dans l'éducation, les loisirs, la sécurité et bien d'autres domaines.
Cependant, VideoPrism fait face à certains défis, comme le traitement des longues vidéos et la prévention des biais lors de l'entraînement. Ce sont là des questions que les recherches futures devront résoudre.
Adresse de l'article : https://arxiv.org/pdf/2402.13217