La Política de Predicción de Vídeo (VPP) es una estrategia robótica basada en modelos de difusión de vídeo (VDM) capaz de predecir con precisión secuencias de imágenes futuras, mostrando una buena comprensión de la dinámica física. La VPP utiliza la representación visual de los VDM para reflejar la evolución del mundo físico, una representación conocida como representación visual predictiva. Al combinar conjuntos de datos diversos de manipulación humana o robótica y emplear un objetivo de entrenamiento de generación de vídeo unificado, la VPP supera a los métodos existentes en dos entornos simulados y dos pruebas de referencia del mundo real. En concreto, en la prueba de referencia Calvin ABC-D, la VPP logró una mejora relativa del 28,1% en comparación con la mejor tecnología anterior, y aumentó la tasa de éxito en un 28,8% en tareas complejas de manipulación de manos ágiles del mundo real.