VideoPrism

Modelo básico de comprensión de video

Producto ComúnVideoComprensión de vídeoCodificador
VideoPrism es un modelo de codificación de vídeo universal capaz de lograr un rendimiento superior en diversas tareas de comprensión de vídeo, incluyendo clasificación, localización, recuperación, generación de subtítulos y preguntas y respuestas. Su innovación radica en el conjunto de datos de preentrenamiento, extremadamente amplio y diverso, que comprende 36 millones de pares de vídeo-texto de alta calidad y 582 millones de clips de vídeo con texto ruidoso. El preentrenamiento emplea una estrategia de dos fases: primero, se utiliza el aprendizaje por contraste para emparejar vídeo y texto; luego, se predicen los bloques de vídeo enmascarados, aprovechando al máximo las diferentes señales de supervisión. Un modelo VideoPrism fijo se puede adaptar directamente a tareas posteriores, estableciendo nuevos récords en 30 conjuntos de datos de referencia para la comprensión de vídeo.
Abrir sitio web

VideoPrism Situación del tráfico más reciente

Total de visitas mensuales

1016722

Tasa de rebote

59.66%

Páginas promedio por visita

1.9

Duración promedio de la visita

00:00:41

VideoPrism Tendencia de visitas

VideoPrism Distribución geográfica de las visitas

VideoPrism Fuentes de tráfico

VideoPrism Alternativas