VideoPrism

Grundlegendes Modell zum Verständnis von Videos

Normales ProduktVideoVideoverstehenEncoder
VideoPrism ist ein universelles Videokodierungsmodell, das in verschiedenen Videoverstehensaufgaben führende Leistungen erzielt, darunter Klassifizierung, Lokalisierung, Retrieval, Untertitelerzeugung und Frage-Antwort-Systeme. Seine Innovation liegt in dem sehr großen und vielfältigen Pre-Training-Datensatz, der 36 Millionen hochwertige Video-Text-Paare und 582 Millionen Videoclips mit verrauschtem Text umfasst. Das Pre-Training verwendet eine zweistufige Strategie: Zuerst werden Video und Text mithilfe von kontrastivem Lernen abgeglichen, dann werden maskierte Videoblöcke vorhergesagt, wobei verschiedene Aufsichtssignale optimal genutzt werden. Ein festes VideoPrism-Modell kann direkt an Downstream-Aufgaben angepasst werden und erzielt auf 30 Videoverstehens-Benchmarks neue Bestleistungen.
Website öffnen

VideoPrism Neueste Verkehrssituation

Monatliche Gesamtbesuche

1016722

Absprungrate

59.66%

Durchschnittliche Seiten pro Besuch

1.9

Durchschnittliche Besuchsdauer

00:00:41

VideoPrism Besuchstrend

VideoPrism Geografische Verteilung der Besuche

VideoPrism Traffic-Quellen

VideoPrism Alternativen