VideoPrism est un modèle d'encodage vidéo polyvalent capable d'atteindre des performances de pointe sur diverses tâches de compréhension vidéo, notamment la classification, la localisation, la recherche, la génération de sous-titres et les questions-réponses. Son innovation réside dans son ensemble de données de pré-entraînement, particulièrement vaste et diversifié, comprenant 36 millions de paires vidéo-texte de haute qualité et 582 millions de clips vidéo avec des textes bruités. La pré-formation utilise une stratégie en deux étapes : d'abord, l'appariement vidéo-texte par apprentissage contrastif, puis la prédiction de blocs vidéo masqués, exploitant ainsi pleinement différents signaux de supervision. Un modèle VideoPrism fixe peut être directement adapté à des tâches en aval, améliorant les meilleurs résultats sur 30 benchmarks de compréhension vidéo.