O Google Research lançou recentemente uma nova tecnologia chamada ReCapture, que permite reviver seus próprios vídeos de uma perspectiva totalmente nova. A tecnologia ReCapture gera uma nova versão do seu vídeo, com trajetória de câmera personalizada, baseada no vídeo fornecido pelo usuário. Isso significa que você pode assistir ao conteúdo do vídeo de ângulos que não estavam presentes na gravação original, mantendo o movimento original das pessoas e cenários.
O ReCapture é como um editor mágico que cria uma versão com uma nova perspectiva a partir do seu vídeo. Por exemplo, se você gravou um vídeo do seu cachorro brincando com o celular, o ReCapture pode gerar um vídeo da perspectiva do cachorro. Incrível, não é?
Mas como o ReCapture realiza essa “magia”? Na verdade, o princípio por trás dele não é complicado. Primeiro, ele usa um modelo de difusão multi-visão ou tecnologia de renderização de nuvem de pontos para gerar um vídeo bruto com base na nova perspectiva desejada. Este vídeo bruto é como uma pedra bruta não lapidada, com imagens possivelmente incompletas e tempo descontínuo, como se estivesse tremendo de embriaguez.
Em seguida, o ReCapture usa sua arma secreta - a tecnologia de “ajuste fino de vídeo com máscara” - para “lapidar” este vídeo bruto. Essa tecnologia é como um artesão habilidoso que usa duas ferramentas especiais - LoRA espacial e LoRA temporal - para reparar e otimizar o vídeo. O LoRA espacial é como um “esteticista”, responsável por aprender as informações de pessoas e cenários do vídeo original, tornando a imagem mais nítida e bonita. Já o LoRA temporal é um “mestre do ritmo”, responsável por aprender o movimento da cena sob a nova perspectiva, tornando a reprodução do vídeo mais fluida e natural.
Após a combinação desses dois “mestres”, o vídeo bruto se transforma em um novo vídeo nítido, coerente e cheio de dinamismo. Além disso, para tornar o efeito do vídeo ainda melhor, o ReCapture usa a tecnologia SDEdit para dar os retoques finais, como maquiagem, tornando o vídeo mais requintado e delicado.
Os pesquisadores do Google afirmam que o ReCapture não precisa de uma grande quantidade de dados de treinamento para processar vários tipos de vídeos e conversões de perspectiva. Isso significa que, mesmo que você seja apenas um entusiasta de vídeo comum, pode usar o ReCapture para criar facilmente vídeos de “câmeras múltiplas” de nível profissional.
Endereço do projeto: https://generative-video-camera-controls.github.io/