VideoPrism
Grundlegendes Modell zum Verständnis von Videos
Normales ProduktVideoVideoverstehenEncoder
VideoPrism ist ein universelles Videokodierungsmodell, das in verschiedenen Videoverstehensaufgaben führende Leistungen erzielt, darunter Klassifizierung, Lokalisierung, Retrieval, Untertitelerzeugung und Frage-Antwort-Systeme. Seine Innovation liegt in dem sehr großen und vielfältigen Pre-Training-Datensatz, der 36 Millionen hochwertige Video-Text-Paare und 582 Millionen Videoclips mit verrauschtem Text umfasst. Das Pre-Training verwendet eine zweistufige Strategie: Zuerst werden Video und Text mithilfe von kontrastivem Lernen abgeglichen, dann werden maskierte Videoblöcke vorhergesagt, wobei verschiedene Aufsichtssignale optimal genutzt werden. Ein festes VideoPrism-Modell kann direkt an Downstream-Aufgaben angepasst werden und erzielt auf 30 Videoverstehens-Benchmarks neue Bestleistungen.
VideoPrism Neueste Verkehrssituation
Monatliche Gesamtbesuche
1016722
Absprungrate
59.66%
Durchschnittliche Seiten pro Besuch
1.9
Durchschnittliche Besuchsdauer
00:00:41