VideoPrism
Modèle de base de compréhension vidéo
Produit OrdinaireVidéoCompréhension vidéoEncodeur
VideoPrism est un modèle d'encodage vidéo polyvalent capable d'atteindre des performances de pointe sur diverses tâches de compréhension vidéo, notamment la classification, la localisation, la recherche, la génération de sous-titres et les questions-réponses. Son innovation réside dans son ensemble de données de pré-entraînement, particulièrement vaste et diversifié, comprenant 36 millions de paires vidéo-texte de haute qualité et 582 millions de clips vidéo avec des textes bruités. La pré-formation utilise une stratégie en deux étapes : d'abord, l'appariement vidéo-texte par apprentissage contrastif, puis la prédiction de blocs vidéo masqués, exploitant ainsi pleinement différents signaux de supervision. Un modèle VideoPrism fixe peut être directement adapté à des tâches en aval, améliorant les meilleurs résultats sur 30 benchmarks de compréhension vidéo.
VideoPrism Dernière situation du trafic
Nombre total de visites mensuelles
1016722
Taux de rebond
59.66%
Nombre moyen de pages par visite
1.9
Durée moyenne de la visite
00:00:41