Das neueste ReCapture-System von Google Research revolutioniert die traditionelle Videobearbeitung. Diese Innovation ermöglicht es auch normalen Nutzern, professionelle Kamerabewegungen einfach anzupassen und die Bildsprache bereits aufgenommener Videos neu zu gestalten.

Die Änderung der Kameraeinstellung in bereits aufgenommenen Videos war in der traditionellen Videopostproduktion immer eine technische Herausforderung. Bestehende Lösungen haben oft Schwierigkeiten, bei der Bearbeitung verschiedener Videoinhalte gleichzeitig komplexe Kameraführungen und Bilddetails zu erhalten. ReCapture geht einen anderen Weg und verwendet keine herkömmliche 4D-Zwischenrepräsentation. Stattdessen nutzt es geschickt das in generativen Videomodellen gespeicherte Bewegungswissen und definiert die Aufgabe mithilfe von Stable Video Diffusion neu als Video-zu-Video-Konvertierung.

image.png

Das System verwendet einen zweistufigen Arbeitsablauf. In der ersten Phase wird ein „Anker-Video“ generiert, also eine erste Ausgabeversion mit der neuen Kameraposition. Diese Phase kann durch die Erstellung von Videos aus mehreren Blickwinkeln mit Diffusionsmodellen wie CAT3D oder durch frameweise Tiefenabschätzung und Point-Cloud-Rendering erfolgen. Diese Version kann zwar zeitliche Inkonsistenzen und visuelle Mängel aufweisen, bildet aber die Grundlage für die zweite Phase.

Die zweite Phase verwendet eine Video-Feinabstimmung mit Maskierung, wobei ein auf vorhandenem Material trainiertes generatives Videomodell verwendet wird, um realistische Bewegungseffekte und zeitliche Veränderungen zu erzeugen. Das System führt zeitliche LoRA (Low-Rank Adaptation)-Schichten ein, um das Modell zu optimieren und es in die Lage zu versetzen, die spezifischen dynamischen Eigenschaften des Anker-Videos zu verstehen und zu replizieren, ohne das gesamte Modell neu trainieren zu müssen. Gleichzeitig stellen räumliche LoRA-Schichten sicher, dass Bilddetails und Inhalte mit der neuen Kamerabewegung übereinstimmen. Dies ermöglicht es dem generativen Videomodell, Zoom, Pan und Tilt durchzuführen, während die Bewegungsmerkmale des Originalvideos erhalten bleiben.

Obwohl ReCapture wichtige Fortschritte in der benutzerfreundlichen Videobearbeitung erzielt hat, befindet es sich derzeit noch in der Forschungsphase und ist noch nicht marktreif. Es ist erwähnenswert, dass Google zwar über zahlreiche Video-KI-Projekte verfügt, diese aber noch nicht auf den Markt gebracht hat. Das Veo-Projekt ist möglicherweise dem kommerziellen Einsatz am nächsten. Ähnlich verhält es sich mit dem kürzlich von Meta vorgestellten Movie-Gen-Modell und Sora von OpenAI, das Anfang des Jahres veröffentlicht wurde. Derzeit wird der Video-KI-Markt hauptsächlich von Startups wie Runway angeführt, das im vergangenen Sommer sein neuestes Gen-3Alpha-Modell vorgestellt hat.