Die Video Prediction Policy (VPP) ist eine Roboterstrategie, die auf Video-Diffusionsmodellen (VDMs) basiert und zukünftige Bildsequenzen präzise vorhersagen kann. Sie zeigt ein ausgezeichnetes Verständnis der physikalischen Dynamik. VPP nutzt die visuelle Repräsentation in VDMs, um die Entwicklung der physischen Welt widerzuspiegeln – eine sogenannte prädiktive visuelle Repräsentation. Durch die Kombination verschiedener Datenmengen menschlicher oder robotischer Manipulationen und ein einheitliches Trainingsziel für die Videogenerierung übertrifft VPP bestehende Methoden in zwei simulierten Umgebungen und zwei realen Benchmark-Tests. Insbesondere beim Calvin ABC-D-Benchmark erzielte VPP eine relative Verbesserung von 28,1 % gegenüber dem vorherigen Stand der Technik und erhöhte die Erfolgsrate bei komplexen realen dexterösen Handmanipulationsaufgaben um 28,8 %.