A equipe de pesquisa do Google lançou recentemente a tecnologia ReCapture, que está revolucionando a edição de vídeo tradicional. Essa inovação permite que usuários comuns realizem ajustes profissionais de movimento de câmera com facilidade, redesenhando a linguagem cinematográfica de vídeos já gravados.

Na pós-produção de vídeo tradicional, alterar o ângulo de câmera de um vídeo já gravado sempre foi um desafio técnico. As soluções existentes, ao lidar com diferentes tipos de conteúdo de vídeo, geralmente têm dificuldade em manter simultaneamente efeitos de câmera complexos e detalhes da imagem. A ReCapture utiliza uma abordagem diferente, não empregando o método tradicional de representação intermediária 4D, mas sim aproveitando inteligentemente o conhecimento de movimento armazenado em modelos de vídeo generativos, redefinindo a tarefa como um processo de conversão de vídeo para vídeo por meio do Stable Video Diffusion.

image.png

Este sistema utiliza um fluxo de trabalho de duas etapas. A primeira etapa gera um "vídeo âncora", ou seja, uma versão de saída inicial com a nova posição da câmera. Esta etapa pode ser realizada criando vídeos multiangulares por meio de modelos de difusão como o CAT3D, ou por meio de estimativa de profundidade quadro a quadro e renderização de nuvem de pontos. Embora esta versão possa apresentar alguma inconsistência temporal e defeitos visuais, ela estabelece a base para a segunda etapa.

A segunda etapa aplica o ajuste fino de vídeo com máscara, utilizando modelos de vídeo generativos treinados em materiais existentes para criar efeitos de movimento e mudanças temporais realistas. O sistema introduz uma camada temporal LoRA (Low-Rank Adaptation) para otimizar o modelo, permitindo que ele compreenda e replique as características dinâmicas específicas do vídeo âncora, sem precisar treinar todo o modelo novamente. Simultaneamente, a camada espacial LoRA garante que os detalhes e o conteúdo da imagem sejam consistentes com o novo movimento da câmera. Isso permite que o modelo de vídeo generativo realize operações como zoom, pan e inclinação, mantendo simultaneamente os movimentos das características do vídeo original.

Apesar do ReCapture representar um avanço significativo no processamento de vídeo amigável ao usuário, ele ainda está em fase de pesquisa e ainda há um longo caminho a percorrer até sua aplicação comercial. É importante notar que, embora o Google possua muitos projetos de IA de vídeo, nenhum deles foi lançado no mercado, sendo o projeto Veo possivelmente o mais próximo do uso comercial. Da mesma forma, o modelo Movie-Gen recentemente lançado pelo Meta e o Sora, lançado pela OpenAI no início do ano, também não foram comercializados. Atualmente, o mercado de IA de vídeo é liderado principalmente por startups como a Runway, que lançou seu mais recente modelo Gen-3Alpha no verão passado.