VideoPrism

Modèle de base de compréhension vidéo

Produit OrdinaireVidéoCompréhension vidéoEncodeur
VideoPrism est un modèle d'encodage vidéo polyvalent capable d'atteindre des performances de pointe sur diverses tâches de compréhension vidéo, notamment la classification, la localisation, la recherche, la génération de sous-titres et les questions-réponses. Son innovation réside dans son ensemble de données de pré-entraînement, particulièrement vaste et diversifié, comprenant 36 millions de paires vidéo-texte de haute qualité et 582 millions de clips vidéo avec des textes bruités. La pré-formation utilise une stratégie en deux étapes : d'abord, l'appariement vidéo-texte par apprentissage contrastif, puis la prédiction de blocs vidéo masqués, exploitant ainsi pleinement différents signaux de supervision. Un modèle VideoPrism fixe peut être directement adapté à des tâches en aval, améliorant les meilleurs résultats sur 30 benchmarks de compréhension vidéo.
Ouvrir le site Web

VideoPrism Dernière situation du trafic

Nombre total de visites mensuelles

1016722

Taux de rebond

59.66%

Nombre moyen de pages par visite

1.9

Durée moyenne de la visite

00:00:41

VideoPrism Tendance des visites

VideoPrism Distribution géographique des visites

VideoPrism Sources de trafic

VideoPrism Alternatives