Com o rápido desenvolvimento da tecnologia de inteligência artificial, a geração de vídeo a partir de imagem (I2V) tornou-se um foco de pesquisa. Recentemente, uma equipe de pesquisadores liderada por Xiaoyu Shi e Zhaoyang Huang lançou uma nova estrutura chamada Motion-I2V, que realiza a geração de vídeo a partir de imagem mais consistente e controlável por meio do modelagem explícita de movimento. Essa inovação tecnológica não apenas melhora a qualidade e a consistência da geração de vídeo, mas também oferece aos usuários uma experiência de controle sem precedentes.
No campo da geração de vídeo a partir de imagem, manter a coerência e o controle do vídeo gerado sempre foi um desafio técnico. Os métodos I2V tradicionais aprendem diretamente o mapeamento complexo de imagem para vídeo, enquanto a estrutura Motion-I2V inova ao decompor esse processo em duas etapas, introduzindo modelagem de movimento explícita em ambas as etapas.
Na primeira etapa, o Motion-I2V propõe um preditor de campo de movimento baseado em difusão, que se concentra em derivar as trajetórias dos pixels da imagem de referência. A chave desta etapa é prever o mapa de campo de movimento entre o quadro de referência e todos os quadros futuros usando a imagem de referência e prompts de texto. A segunda etapa é responsável por propagar o conteúdo da imagem de referência para os quadros sintetizados. Ao introduzir uma nova camada temporal aprimorada por movimento, o aprimoramento da atenção temporal 1-D amplia o campo receptivo temporal e reduz a complexidade de aprender diretamente padrões espaço-temporais complexos.
Em comparação com os métodos existentes, o Motion-I2V apresenta vantagens significativas. Seja em cenários como "tanques em alta velocidade", "BMW azul em alta velocidade", "três cubos de gelo claros" ou "caracol rastejando", o Motion-I2V gera vídeos mais consistentes, mantendo uma saída de alta qualidade mesmo com grandes movimentos e mudanças de perspectiva.
Além disso, o Motion-I2V permite que os usuários controlem com precisão as trajetórias de movimento e as áreas de movimento por meio de anotações esparsas de trajetórias e regiões, fornecendo mais capacidade de controle do que apenas instruções de texto. Isso não apenas melhora a experiência interativa do usuário, mas também possibilita a personalização e a individualização da geração de vídeo.
Vale ressaltar que a segunda etapa do Motion-I2V também suporta naturalmente a conversão de vídeo para vídeo de amostra zero, o que significa que a conversão de vídeos com estilos ou conteúdos diferentes pode ser realizada sem amostras de treinamento.
O lançamento da estrutura Motion-I2V marca uma nova etapa na tecnologia de geração de vídeo a partir de imagem. Não apenas alcança melhorias significativas na qualidade e consistência, mas também demonstra um enorme potencial em termos de controle do usuário e personalização. Com a maturação e o aprimoramento contínuos da tecnologia, podemos acreditar que o Motion-I2V desempenhará um papel importante em vários campos, como produção cinematográfica, realidade virtual e desenvolvimento de jogos, proporcionando às pessoas experiências visuais mais ricas e vívidas.
Endereço do documento: https://xiaoyushi97.github.io/Motion-I2V/
Endereço do github: https://github.com/G-U-N/Motion-I2V