VideoPrism es un modelo de codificación de vídeo universal capaz de lograr un rendimiento superior en diversas tareas de comprensión de vídeo, incluyendo clasificación, localización, recuperación, generación de subtítulos y preguntas y respuestas. Su innovación radica en el conjunto de datos de preentrenamiento, extremadamente amplio y diverso, que comprende 36 millones de pares de vídeo-texto de alta calidad y 582 millones de clips de vídeo con texto ruidoso. El preentrenamiento emplea una estrategia de dos fases: primero, se utiliza el aprendizaje por contraste para emparejar vídeo y texto; luego, se predicen los bloques de vídeo enmascarados, aprovechando al máximo las diferentes señales de supervisión. Un modelo VideoPrism fijo se puede adaptar directamente a tareas posteriores, estableciendo nuevos récords en 30 conjuntos de datos de referencia para la comprensión de vídeo.