VideoPrism
Modelo básico de comprensión de video
Producto ComúnVideoComprensión de vídeoCodificador
VideoPrism es un modelo de codificación de vídeo universal capaz de lograr un rendimiento superior en diversas tareas de comprensión de vídeo, incluyendo clasificación, localización, recuperación, generación de subtítulos y preguntas y respuestas. Su innovación radica en el conjunto de datos de preentrenamiento, extremadamente amplio y diverso, que comprende 36 millones de pares de vídeo-texto de alta calidad y 582 millones de clips de vídeo con texto ruidoso. El preentrenamiento emplea una estrategia de dos fases: primero, se utiliza el aprendizaje por contraste para emparejar vídeo y texto; luego, se predicen los bloques de vídeo enmascarados, aprovechando al máximo las diferentes señales de supervisión. Un modelo VideoPrism fijo se puede adaptar directamente a tareas posteriores, estableciendo nuevos récords en 30 conjuntos de datos de referencia para la comprensión de vídeo.
VideoPrism Situación del tráfico más reciente
Total de visitas mensuales
1016722
Tasa de rebote
59.66%
Páginas promedio por visita
1.9
Duración promedio de la visita
00:00:41